![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
读书笔记
文章平均质量分 86
ProfMoriarty
这个作者很懒,什么都没留下…
展开
-
偏差、方差、标准差、协方差
目录1 期望值(Expectation)2 偏差(Bias)3 方差(Variance)3.1 总体方差(Population Variance)3.2 样本方差(Sample Variance)4 标准差(Deviation)4.1 总体标准差(Population Standard Deviation)4.2 样本标准差(Sample Standard Deviation)5 协方差(Covariance)5.1 协方差(Covariance)5.2 协方差矩阵(Covariance Matrix)5.原创 2021-05-06 15:14:30 · 3828 阅读 · 0 评论 -
Python Pandas与Numpy中axis参数的二义性
python中的axis究竟是如何定义的呢?他们究竟代表是DataFrame的行还是列?考虑以下代码:>>>df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], \columns=["col1", "col2", "col3", "col4"])>>>df col1 col2 col3 col4 0 1 1 1 1 1 2转载 2021-03-11 16:20:50 · 102 阅读 · 0 评论 -
Bloom Filter概念和原理
Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。集合表示和元素查询下面我们具体来看Bloom Filter转载 2021-03-09 13:18:31 · 93 阅读 · 0 评论 -
ETL讲解(很详细!!!)
目录前言一、 数据的抽取(Extract)二、数据的清洗转换(Cleaning、Transform)三、ETL日志&警告发送后记前言 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关转载 2021-03-08 12:32:12 · 758 阅读 · 0 评论 -
ETL流程介绍&常用实现方法
目录一、概述二、使用步骤1.引入库2.读入数据总结一、概述 ETL是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。常见于数据仓库开发中将数据由业务系统归集到数据仓库(DW: DataWarehouse)或者数据集市的过程。ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的转载 2021-03-08 07:38:58 · 6973 阅读 · 0 评论 -
数仓简介:ODS、DW和DM概念区分
目录ODS——操作性数据DW——数据仓库DM——数据集市2.数据仓库的ODS、DW和DM概念ODS——操作性数据DW——数据仓库DM——数据集市1.数据中心整体架构数据中心整体架构数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。2.数据仓库的ODS、DW和DM概念概念定义特征个人理解ODS &转载 2021-03-07 14:34:43 · 1106 阅读 · 0 评论 -
《Python数据分析与数据化运营》学习笔记§2
《Python数据分析与数据化运营》学习笔记§22.2 使用python获取运营数据read_table() 参数sep与delimiter的区别sep :字符串,分割符,默认值为‘,’。如果sep为None,则C引擎无法自动检测分隔符,但Python解析引擎可以检测,这意味着将使用后者,并通过Python的内置嗅探器csves.niffer自动检测分隔符。此外,长度大于1个字符的分隔符将被解释为正则表达式,并强制使用Python解析引擎。正则表达式示例:’\r\t’delimiter :字符原创 2020-12-19 19:11:48 · 459 阅读 · 1 评论 -
《谁说菜鸟不会数据分析》学习笔记-1
《谁说菜鸟不会数据分析》学习笔记1、现状分析1.1 对比分析同级类别的对比,横比时间维度上的对比,纵比实际完成值与目标对比行业内对比1.2 分组分析定性分组,即结构分析,计算各组分所占比重定量分析,即分布分析,将数值型数据等距或不等距分组,研究各组分布规律。1.3 交叉分析一维表变二维表或多维表1.4 RFM分析R、F、M值按照高低交叉组合为8个客户群体R、F、M值取1~5。RFM = 100 * R + 10 * F + 1 * M1.5 矩阵关联分析即象限原创 2020-12-01 10:03:18 · 119 阅读 · 0 评论