任务0
学习目标
- 对数据分析有有一点感性的认知,了解数据分析的用途;
- 对数据分析中数据处理和可视化软件有初步了解;
- 理解数据分析的流程和步骤;
数据分析
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据也称为观测值,是实验、测量、观察、调查等的结果。在我们日常生活中所有的观测值都是数据,可以拿来进行分析。需要注意的是,数据分析是有目的的、有步骤的和有结果的行为。
数据分析的具体步骤可分为***数据处理与统计和数据可视化***,在现有的工具中都或多或少包含上述两种功能。对于数据处理与统计,基本上所有可以完成基本计算的软件都可以用来进行统计。
数据分析介绍
数据统计分析关键指标
数据统计的关键指标包括
- 均值、中位数、众数体现了数据的集中趋势
- 极差、方差、标准差体现了数据的离散程度
- 偏度、峰度体现了数据的分布形状
集中趋势
均值
- 均值=一组数据中所有数据之和再除以这组数据的个数
中位数
- 中位数=按大小顺序排列的数据组之中点位置对应的数值,该数值把数据组分成两半
- 例子:数据集[777, 888, 4, 999, 5, 66, 1, 2, 3]的中位数是5。
- 优点:不受极端值影响。(中值对于偏态分布或有异常值的数据是有用的)
- 缺点:需要对数据排序,对大样本将非常繁琐。
- 使用场景:当一组数据中的个别数据变动较大时, 常用它来描述这组数据的集中趋势.
众数
-
众数=出现频次最高的观测值。
-
例子:数据集[‘a’, ‘a’, ‘b’, ‘c’, ‘c’, ‘c’, ‘d’]的众数是’c’。
- 优点:不受极端值影响,可应用于定性数据。
- 缺点:一组数据可能不存在众数,有时一组数据可能会有一个以上的众数。
- 使用场景:当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用, 由于可能无法良好定义算术平均数和中位数.
离散程度
数值型数据
- 方差
方差(Variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数
σ^2为总体方差,X为变量,μ为总体均值,N为总体例数。
- 优点:方差的计算结果将数据的波动性数值放大,比极差和标准差更为细致、准确、明显。
- 缺点:增加数据点时,方差的结果会随之增大。
- 使用场景:计算数据的离散程度,例如通过模型误差的方差来判断模型的泛华能力
- 标准差
标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。
- 优点:表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。另外,在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:68%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。
- 缺点:增加数据点时,标准差的结果会随之增大。
- 使用场景:标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。
-
极差
为一组数据的最大值和最小值之差。优点:计算十分简单。 缺点:它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异,仅适用样本容量较小(n<10)情况。 使用场景:极差在SPC控制图中有大量应用。
顺序数据
四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;
第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字;
第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距。
例子:数据集[6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36]的Q1=15,Q2=40,Q3=43。
优点:四分位数不受极值的影响。
缺点:需要对数据排序,对大样本将非常繁琐。
使用场景:四分位距、异常值判断等。
分类数据
异众比率又称离异比率或变差比,是指的是非众数的次数与全部变量值总次数的比率,即众数不能代表的那一部分变量值在总体中的比重。
使用场景:异众比率主要用于测度分类数据的离散程度,当然,对于顺序数据以及数值型数据也可以计算异众比率。譬如,我们通过计算求出一项50人调查中,购买其它品牌饮料(指除可口可乐之外的品牌)的人数达到70%的异众比率,异众比率比较大,那么,说明用“可口可乐”来代表消费者购买饮料品牌的状况,其代表性比较差,其众数代表性就不是很明显。
相对离散程度
离散系数又称变异系数,是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计 量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
优点:比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。
缺点:当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。另外,离散系数无法发展出类似于均值的置信区间的工具。
使用场景:比较不同样本数据的离散程度。
分布形态
- 偏态系数
偏态(skewness)是对数据分布对称性的测度,测量偏态的统计量是偏态系数(coefficient of skewness,SK),是对统计数据分布偏斜程度的度量,是描述分布非对称程度的数字特征。
偏态越大,表示偏斜的程度越大。
偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
使用场景:在社会经济现象的计量分析中,许多现象的次数分布并非对称,如果应用偏态系数指标,则可将被研究总体在其平均水平上下次数分布的特征简明扼要地反映出来。
- 峰态系数
峰态(kurtosis)是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数(coefficient of kurtosis),记作K,是对统计数据分布陡峭程度的度量。通常是与标准正态分布相比较而言。
使用场景:一项金融资产,设若其预期收益率的峰度较高,则说明该项资产的预期收益率有相对较高的概率取极端值。换句话说,该项资产未来行市发生剧烈波动的概率相对较高。
数据分析与数据类型
我们日常生活中充满了各类数据,也有多种数据类型划分方法:
- 定性数据与定量数据; 数据类型划分:课将统计数据分为布尔型、类别型、数值型和日期型数据;
- 不同类型的数据会有不同的数据存储方法和统计方法,也需要不同类型的可视化方法来完成。
数据分析软件
数据分析与可视化方法
数据可视化方法有非常多种,具体可以根据数据类型、对比方法和展示方法进行细分:
- https://datavizcatalogue.com/ZH/index.html
- https://python-graph-gallery.com/
数据分析流程
- 明确分析目的和思路
- 收集数据
- 数据统计处理
- 数据分析与可视化
- 报告撰写
描述性统计分析
描述性数据分析(Descriptive Data Analysis,DDA)属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。
- 变量类型
变量类型:无序分类变量、有序分类变量、连续变量
- 无序分类变量:男女
- 有序分类变量:良、较好、优秀
- 连续分类变量:在规定范围内可以任意取值,比如学生分数;
1.1 无序变量(名义变量)统计量:频次、百分比;
有序分类变量(等级变量):频次、百分比、累积频次、累积百分比;
- 连续变量的分布与集中趋势
- 集中趋势的描述性统计量
- 均值:是指一组数据的算术平均数,描述一组数据的平均水平,是集中趋势中波动最小、最可靠的指标,但是均值容易受到极端值(极小值或极大值)的影响。
- 中位数:是指当一组数据按照顺序排列后,位于中间位置的数,不受极端值的影响,对于定序型变量,中位数是最适合的表征集中趋势的指标。
- 四分位数
- 百分位数
- 众数:是指一组数据中出现次数最多的观测值,不受极端值的影响,常用于描述定性数据的集中趋势。
pandas 求四分位数:
直方图:
data.price.hist(bins=20) #单位面积房价有些右偏
- 离散程度的描述性统计量
- 最大值和最小值:是一组数据中的最大观测值和最小观测值
- 极差:又称全距,是一组数据中的最大观测值和最小观测值之差,记作R,一般情况下,极差越大,离散程度越大,其值容易受到极端值的影响。
- 方差和标准差:是描述一组数据离散程度的最常用、最适用的指标,值越大,表明数据的离散程度越大。
- 分布形态的描述性统计量
偏度:用来评估一组数据的分布呈现的对称程度,当偏度=0时,分布是对称的;当偏度>0时,分布呈正偏态;当偏度<0时,分布呈负偏态。偏度代销以及正负取决于分布便宜的方向及程度;
峰度:峰度大小与正负取决于分布相较标准正态分布的高矮;峰度大于0,较密集,小于0较稀疏;
探索型数据分析
探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等。
探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别:
-
传统的统计分析方法通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析。但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人满意。
-
探索性数据分析方法注重数据的真实分布,强调数据的可视化,使分析者能一目了然看出数据中隐含的规律,从而得到启发,以此帮助分析者找到适合数据的模型。“探索性”是指分析者对待解问题的理解会随着研究的深入不断变化。
单因子频数:仅分析单个分类变量的分布情况,提供每个水平的频次、百分比和累计值;
data.distinct.value_count().plot(kind=‘bar’)kind为图表类型,柱形为bar,饼形图为pie
交叉表(表分析)分析两个分类变量的联合分布情况,提供每个单元格的频次、百分比和边沿分布情况。pd.crosstab(snd.subway,snb.school)
分类变量和连续变量:snd.price.groupby(snd.distict).agg(['mean],‘max’,‘min’])
两个连续变量
参考:《数据科学详解与商业实战》
验证型数据分析
验证型数据分析(Confirmatory Data Analysis, CDA)根据数据样本所提供的证据,肯定还是否定有关总体的声明。
假设验证的基本流程:
1.提出零假设(我们希望推翻的结论),及备择假设(我们希望证明的结论)
2.在零假设的前提下,推断目前样本统计量出现的概率 *统计量可符合不同分布,即对应不同的检验方法
3.设定一个拒绝零假设的阈值(常见5%,及统计学意义“显著”,significant),如果目前样本统计量在零假设下出现的概率小于阈值,则拒绝零假设,承认备择假设。