数理统计(二)-数据的类型和基本概念

####################################################################################

文章内容引用自:http://blog.csdn.net/u012149341/article/details/50190029,并对其加以个人描述,本文章不做任何商业用途仅供学习梳理,若有侵权行为请联系留言。

####################################################################################

眼下数据科学如此火热,入了金融ML的坑才发现,要补的知识实在是太多了,打算从今天起,时常整理一些自己了解的学到的知识,分享给大家。

一来整理在这里的知识,自己看着也方便;

二来给自己个恒心,不要半途而废。

今天就从统计学开始,想入坑的各位同学,记得培养自己对数据的Sense,很有必要。

1.什么是统计学?

统计学(Statistics),是收集、处理、分析、解释数据并从数据中得出结论的科学。

——统计学是关于数据的科学,它所提供的是一整套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。


2.数据分析所用的方法可分为描述统计方法和推断统计方法。


描述统计方法 (descriptive statistics)研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。


推断统计 (inferential statistics)是研究如何利用样本数据来推断总体特征的统计方法。


3.统计数据

统计数据 是对现象进行测量的结果。

——比如,对股票价格变动水平的测量可以得到股票价格指数的数据;


3.1 分类数据、顺序数据、数值型数据(数据是实体)

按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据

——计量尺度分四种:(1)分类尺度(数据表现为类别);(2)顺序尺度(数据表现为有序的类别);(3)间隔尺度(数据表现为数字,没有绝对零点);(4)比率尺度(数据表现为数字,但是有绝对零点);


分类数据 (categorical data)是只能归于某一类别的非数字型数据,它是对事务进行分类的结果,数据表现为类别,是用文字来表述的。(可以认为分类数据的类别之间是平行的)


顺序数据 (rank data)是只能归于某一有序类别的非数字型数据。(顺序数据虽然也是类别,但是这些类别是有序的)


数据型数据 (metric data)是按数字尺度测量的观测值,其结果表现为具体的数值。

(分类数据和顺序数据说明的是事务的品质特征,通常是用文字来描述的,其结果均表现为类别,因而也可以统称为 定性数据 或 品质数据(qualitative data)

    数值型数据说明的是现象的数量特征,通常是数值来表现的,因此也可以成为定量数据或数量数据(quantitative data))


3.2 时间序列数据(time series data)

实在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的数据(如2010--2012年我国的国内生产总值数据就是时间序列数据)


4.参数和统计量

参数 (parameter)是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。(总体平均数、总体标准差、总体比例)


统计量 (statistic)是用来描述样本特征的概括性数字度量。(样本平均数、样本标准差、原本比例)


——统计量是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。

——一些为统计分析的需要而构造出来的统计量,如统计检验的z统计量、t统计量、(x方)统计量,F统计量等。

5.变量

变量 (variable)是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。(商品销售额,受教育程度,产品的质量等级等)

分类变量 (categorical variable)是说明事务类别的一个名称,其取值是分类数据。(如,性别 作为一个分类变量,其变量值为 男 或 女)

顺序变量 (rank variable)是说明事务有序类别的一个名称,其取值是顺序数据。(如,产品等级 作为一个顺序变量,其变量值可以为 一等品,二等品,三等品,次品 等)

数值型变量 (metric variable)是说明事务数字特征的一个名称,其取值是数值型数据。(如,产品产量,商品销售额,零件尺寸,年龄)

——离散型变量 (discrete variable)是只能取可数值的变量,只能取有限个值,而且其取值都以整位数断开,可以一一列举

——连续型变量 (continuous variable)是可以在一个或多个区间中取任何值得变量,它的取值是连续不断的,不能一一列举(年龄,温度,两件尺寸的误差)

<<<在对社会和经济问题的研究中,当离散型变量的取值很多时,也可以将离散型变量当做连续型变量来处理>>>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值