数据分析
小狼躲藏
专注于数据仓库、治理、数据分析领域
展开
-
数据统计分析(1):数据分析流程
首先,数据分析能力是一项综合性的能力。数据分析过程如下:1.明确分析目的和思路1.1 明确分析目的做任何事情都有一个目标,数据分析也不例外。如果目的明确,所有问题都可以迎刃而解。所以在开展数据分析之前,要想清楚:为什么要开展数据分析?通过这次数据分析我要解决什么问题?只有明确数据分析的目标,数据分析才不会偏离方向,否则得出的数据分析结果不仅仅没有指导意义,甚至可能将决策者...原创 2019-04-08 16:44:38 · 5906 阅读 · 0 评论 -
数据分析:有关相关性分析的混沌
相关分析是指对多个具备相关关系的变量进行分析,从而衡量变量间的相关程度或密切程度。相关性可以应用到所有数据的分析过程中,任何事物之间都存在一定的联系。相关性用R(相关系数)表示,R的取值范围是[-1,1]相关和因果的差异 相关性不等于因果,用x1和x2作为两个变量逆行解释,相关意味着x1和x2是逻辑上的并列相关关系,而因果联系可以解释为因为x1所以x2(或因为x2所以x1)的逻辑关系,二...原创 2019-04-20 10:14:55 · 658 阅读 · 0 评论 -
Matplotlib可视化
原创 2019-04-18 00:32:02 · 141 阅读 · 0 评论 -
Pandas:数据分析与处理
1. 分组分析分组分析是指根据分组字段将分析对象划分成不同的部分,以对比分析各组之间差异性的一种分析方法。常用的统计指标有:计数,求和,平均值。常用命令形式如下:df.groupby(by=['分类1','分类2',...])['被统计的列'].agg({列名1:统计函数1, 列名2:统计函数2,...})参数说明: * by 表示用于分组的列 * [] 表示用于统计...原创 2019-04-17 23:28:29 · 688 阅读 · 0 评论 -
Pandas:基本统计分析
基本统计分析又叫描述性统计分析,一般统计某个变量的最小值,第一个四分位值,中值,第三个四分位值以及最大值。描述性统计分析函数为describe,该函数返回值有均值,标准差,最大值,最小值,分位数等。括号中可以带一些参数,如percentitles=[0.2,0.4,0.6,0.8]就是指定只计算0.2, 0.6, 0.8 分位数,而不是默认的1/4, 1/2, 3/4分位数。describe...原创 2019-04-17 23:07:07 · 2692 阅读 · 0 评论 -
数据预处理:解决运营数据的共线性问题
所谓共线性(又称多重共线性)问题指的是输入的自变量之间存在较高的先行相关度。共线性问题会导致回归模型的文档行和准确性大大降低,另外,过多无关的维度参与计算也会浪费计算资源和时间。 共线性问题是否常见取决于具体业务场景,常见的具有明显的共线性的维度或变量包括如下:访问量和页面浏览量页面浏览量和访问时间订单量和销售额订单量和转化率…导致出现变量间共线性的原因可能包括:数据样本不...原创 2019-04-17 21:15:52 · 2495 阅读 · 0 评论 -
数据预处理:将分类和顺序数据转换为标志变量
分类数据和顺序数据是常见的数据类型。Python标志转换示例说明:在本示例中,将模拟有两列数据分别出现分类数据和顺序数据的情况,并通过自定义代码以及sklearn代码分别进行标志转换。import pandas as pd from sklearn.preprocessing import OneHotEncoder # 导入OneHotEncoder# 生成数据df = pd.D...原创 2019-04-14 10:10:54 · 882 阅读 · 0 评论 -
数据清洗:缺失值,异常值和重复值的处理
在数据清洗过程中,主要处理的是缺失值,异常值和重复值。所谓清洗,是对数据进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的。1. 数据列缺失的4种处理方法 数据缺失分为2种:行记录的缺失,这种情况又称为数据记录丢失;数据列值的丢失,即由于各种原因导致的数据记录种某些列的值缺失。这里重点讨论数据列类型缺失值的处理,通常有4种处理思路:丢弃补全相对于丢弃而...原创 2019-04-14 08:11:25 · 12078 阅读 · 0 评论 -
数据统计分析(4):数据的离散程度描述
极差极差又被称为范围差或全距(Range),以R表示,是用来表示统计资料中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据。它是标志值变动的最大范围,它是测定标志变动的最简单的指标。移动极差是其中一种。极差不能用做比较,单位不同,方差能用做比较,因为都是个比率。计算公式:最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常...原创 2019-04-09 23:53:29 · 63721 阅读 · 1 评论 -
聚类分析
聚类常用于数据探索或挖掘前期,在没有做先验经验的背景下做的探索性分析,也适用于样本量较大情况下的数据预处理工作。例如针对企业整体的用户特征,在未得到相关只是或经验之前先根据数据本身特点进行用户分群,然后针对不同群体做进一步分析;例如对连续数据做离散化,便于后续做分类分析应用。 常用的聚类算法分为基于划分,层次,密度,网格,统计学,模型等类型的算法,典型算法包括K均值(经典的聚类算法),DB...原创 2019-04-20 17:40:05 · 4257 阅读 · 0 评论 -
11步转行数据科学家 (送给数据员/ MIS / BI分析师)
数据科学作为一个专业领域迅速崛起,吸引了来自各种职业背景的人。工程师、计算机科学家、市场和金融毕业生、分析师、人力资源人员——每个人都想尝一块 “数据科学馅饼”。Analytics Vidhya (一个专门针对“分析与数据科学”的社区网站 ) 发布了一篇文章《为初学者迈入数据科学规划的全面学习路径》。A comprehensive Learning path to become a...转载 2019-04-09 21:00:42 · 292 阅读 · 0 评论 -
机器学习与统计学的差异
【导读】统计学和机器学习的真正差别。统计学和机器学习在很多情况下是被混淆的,大部分人其实并不能很好的区分二者。介于此,本文详解的讲解了二者实际的差异,非常有指导意义。 很多人并不能很好的区分统计学和机器学习,因为之间确实有太多的相同之处。目前流行的一种说法是,机器学习和统计学之间的主要区别在于它们的目的:机器学习模型旨在使最准确的预测成为可能;统计模型被设计用于推断变量之间的关系。这...转载 2019-04-09 20:30:25 · 1298 阅读 · 0 评论 -
数据统计分析(3):数据的集中趋势描述
数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反应事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好反映事物目前所处的位置和发展水平,通过对事物集中趋势指标的多次测量和比较,还能够说明事物的发展和变化趋势。数据的集中趋势描述的形式主要有如下几种:1.算数平均值算术平均值是最常用的数据集中趋势指标,可以分为简单算术平均值和加权算术平均值。算...原创 2019-04-09 07:49:25 · 21529 阅读 · 0 评论 -
数据分析-ARIMA方法建模步骤总结
ARIMA模型适用于非平稳时间序列数据,其中的I表示差分的次数,适当的差分可使原序列成为平稳序列后,再进行ARIMA模型的建模。其建模步骤与ARMA模型类似,分为5个步骤:平稳: 通过差分的手段,对非平稳时间序列数据进行平稳操作。定阶: 确定ARIMA模型的阶数p, q。估计: 估计未知参数。检验: 检验残差是否是白噪声过程。预测: 利用模型预测。对应的,在商业领域,时间序列预测...原创 2019-05-06 08:29:07 · 23845 阅读 · 0 评论