1数据分类
定性数据(品质数据)-分类数据 顺序数据-都是文字
定量数据(数量数据)-都是数字
截面数据
时间序列数据
2变量
分类变量-性别(男、女) 行业(旅游业、互联网、教育)
顺序变量-教育程度(初中、高中、大学)
数值型变量-离散型变量-取值以整数隔开 (产品数量)
-连续型变量-取值连续 (温度、年龄)
3数据的概括性度量-数据分布的特征
(1)分布的集中趋势
众数、中位数(分位数-四分位数等)、平均数
(2)分布的离散程度
异众比率:非众数的比例
四分位差:上四分位数-下四分位数-中间50%数据的离散程度
极差
平均差:每个变量值与平均值 相差绝对值 的平均值
方差:(xi-平均值)的平分 之和 /n-1 (样本个数-1称为自由度)
标准分数:z=(xi-平均值)/s -标准化处理
离散系数:标准差/均值 越大,数据离散程度越大
(3)分布的形状
偏态系数:SK=0,数据对称分布
>0,右偏
<0,左偏
绝对值越大,数据越偏
峰态系数:K>0,尖峰分布&#