####################################################################################
文章内容引用自:http://blog.csdn.net/u012149341/article/details/50190029,并对其加以个人描述,本文章不做任何商业用途仅供学习梳理,若有侵权行为请联系留言。
####################################################################################
眼下数据科学如此火热,入了金融ML的坑才发现,要补的知识实在是太多了,打算从今天起,时常整理一些自己了解的学到的知识,分享给大家。
一来整理在这里的知识,自己看着也方便;
二来给自己个恒心,不要半途而废。
今天就从统计学开始,想入坑的各位同学,记得培养自己对数据的Sense,很有必要。
1.什么是统计学?
统计学(Statistics),是收集、处理、分析、解释数据并从数据中得出结论的科学。
——统计学是关于数据的科学,它所提供的是一整套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。
2.数据分析所用的方法可分为描述统计方法和推断统计方法。
描述统计方法 (descriptive statistics)研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计 (inferential statistics)是研究如何利用样本数据来推断总体特征的统计方法。
3.统计数据
统计数据 是对现象进行测量的结果。
——比如,对股票价格变动水平的测量可以得到股票价格指数的数据;
3.1 分类数据、顺序数据、数值型数据(数据是实体)
按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
——计量尺度分四种:(1)分类尺度(数据表现为类别);(2)顺序尺度(数据表现为有序的类别);(3)间隔尺度(数据表现为数字,没有绝对零点);(4)比率尺度(数据表现为数字,但是有绝对零点);
分类数据 (categorical data)是只能归于某一类别的非数字型数据,它是对事务进行分类的结果,数据表现为类别,是用文字来表述的。(可以认为分类数据的类别之间是平行的)
顺序数据 (rank data)是只能归于某一有序类别的非数字型数据。(顺序数据虽然也是类别,但是这些类别是有序的)
数据型数据 (metric data)是按数字尺度测量的观测值,其结果表现为具体的数值。
(分类数据和顺序数据说明的是事务的品质特征,通常是用文字来描述的,其结果均表现为类别,因而也可以统称为 定性数据 或 品质数据(qualitative data)
数值型数据说明的是现象的数量特征,通常是数值来表现的,因此也可以成为定量数据或数量数据(quantitative data))
3.2 时间序列数据(time series data)
实在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的数据(如2010--2012年我国的国内生产总值数据就是时间序列数据)
4.参数和统计量
参数 (parameter)是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。(总体平均数、总体标准差、总体比例)
统计量 (statistic)是用来描述样本特征的概括性数字度量。(样本平均数、样本标准差、原本比例)
——统计量是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。
——一些为统计分析的需要而构造出来的统计量,如统计检验的z统计量、t统计量、(x方)统计量,F统计量等。
5.变量
变量 (variable)是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。(商品销售额,受教育程度,产品的质量等级等)
分类变量 (categorical variable)是说明事务类别的一个名称,其取值是分类数据。(如,性别 作为一个分类变量,其变量值为 男 或 女)
顺序变量 (rank variable)是说明事务有序类别的一个名称,其取值是顺序数据。(如,产品等级 作为一个顺序变量,其变量值可以为 一等品,二等品,三等品,次品 等)
数值型变量 (metric variable)是说明事务数字特征的一个名称,其取值是数值型数据。(如,产品产量,商品销售额,零件尺寸,年龄)
——离散型变量 (discrete variable)是只能取可数值的变量,只能取有限个值,而且其取值都以整位数断开,可以一一列举
——连续型变量 (continuous variable)是可以在一个或多个区间中取任何值得变量,它的取值是连续不断的,不能一一列举(年龄,温度,两件尺寸的误差)
<<<在对社会和经济问题的研究中,当离散型变量的取值很多时,也可以将离散型变量当做连续型变量来处理>>>