1.大纲
此部分占10%
1.1 统计学含义
统计学是关于数据的科学。统计学是一门收集、处理、分析、解释数据并从数据中得出结论的科学。
统计学的对象是数据。
数据的形式:分数字和文字。
(1) 阿拉伯数字一定是数字吗?
不一定。
处理数据时,会把男认为1,女记作0;此时的1和0 不是数字。
实际上,,阿拉伯数字只是一个代替的符号而已,阿拉伯数字符号也可表示文字。
(2)
1.1.1 数据分析步骤:
收集数据——处理数据——分析数据——解释数据
- 数据收集——取得统计数据
- 数据处理——将数据用图表等形式展示出来
- 数据分析——选择适当的统计方法研究数据,并从数据中提取有用信息得出结论
1.1.2 数据分类
分析数据2部分:描述性统计分析、推断性分析
(1)描述性分析:descriptive statistics 研究数据收集、处理和描述的统计学方法
(总体规模、对比关系、集中趋势、离散程度、偏态、峰态)
eg:所有CDA持证人收入情况,电话问询,这就是描述性分析;
(2)推断性分析:inferential statistics 是研究如何利用样本数据来推断总体特征的统计方法
eg:分析中国人的收入情况:可在各个城市抽取一定的样本来研究
特点:(根据数据携带信息 依次从低级到高级)
分类型数据:不可排序,不可计算——定性数据
顺序性数据:可排序,不可计算——定性数据
数值型数据:可排序,可计算。——定量数据 (比如:身高,年龄)
为什么没有不可排序,可计算的数据呢?有但很少;辅助型数据;(a+bi)
面板数据/混合数据——混合界面和时间序列数据。
按概率型不同——离散型数据、连续型数据
(1)比如卖出去的商品个数,是整数;
连续型取到某一样本值的概率为0;无限次数据,会算出概率为0;
特殊数据——虚拟变量数据
eg:教育水平,产品质量等
区间(分组的数值型数据)——仍属于数值型。
不同类型的数据之间可进行转换,低级数据的方法高级数据可用。
1.1.3 总体和样体
1.总体——population
所有和总体有关的东西都是一个定值。
指研究的所有元素的集合。其中,每个元素称为个体。
用希腊字母表示。
包含所研究的全部个体(数据)的集合,通常由所研究的一些个体组成。
2.样本——sample
所有和样本有关系的东西都是变量。用英文字母表示。
从总体中抽取的一部分元素的集合。
样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为 样本容量(sample size)
抽样的目的:根据样本提供的信息推断总体的特征。
1.1.4 参数和统计量
1.参数-parameter /pə'ræmɪtɚ/
至研究者想要了解的总体的某种特征值
主要有 总体均值(μ)、总体标准差、总体比例(π)等
2.统计量-statistic
根据样本数据计算出来的一个量,即 样本的某个特征值;
样本的一个函数,叫做统计量。
1.1.5 变量
1.变量:
描述事物某种特征的概念。如:商品销售额、受教育程度、产品的质量等级等。
2.变量与数据的关系
变量的具体表现称为变量值,数据。
3.变量的分类
根据变量的数据计量尺度不同来分。
变量是特征,数据是反映出来的。
分类变量(categorical variable):说明事物类别的一个名称
顺序变量(rank variable):说明事物有序类别的一个名称
数值型变量(metric variable):说明事物数字特征的一个名称