数据思维笔记
数据介绍:
通过数据说明表进行表述,表格格式如下:
表1-1
变量类型 | 变量名 | 详细说明 | 取值范围 | 备注 |
因变量 | 综合成绩 |
|
|
|
自变量 | 平时表现评分 |
|
|
|
考试评分 |
|
|
| |
实践活动评分 |
|
|
| |
获奖评分 |
|
|
|
一般会增加一段文字说明,例如:本案例所用数据来源于牛客网,共2000条观测值,包含14个变量,每条观测值代表一个数据分析岗位的信息,按照xxxx标准,将变量归纳为两大组等等
数据可视化的探索
即考察变量的变动情况。
除了统计图形要准确以为,主要的点在于对于图标信息的描述,如何组织语言很重要,往往可以往以下几个思路进行:
- 什么值最常见,为什么?
- 分布情况,特征值,如均值,中位数。
- 什么值最罕见?为什么?符合我预期的结果么?
- 其中有什么模式么?
其中,多与业务实际联系。
对于探索性的结果,我们一般从两方面总结:
- 直观表达
- 建议
建模的三个步骤:
建模前的准备、模型的选择、模型的解读以及评价。
建模前的准备:缺失值处理、数据标准化、异常值排查等
模型选择:根据是否有因变量将统计学习分成无监督学习和有监督学习
对于有监督学习来说,因变量累数据类型不同导致不一样的方法。
模型的解读与评价:主要考察模型的预测精度以及解读能力两方面进行评价。
因变量为定量型:常用均方误差、绝对误差、相对误差。本质都是考察预测值与真实值之间的差距。如果是定性变量:常用错判率、AUC等准则。
防止过拟合的方法:拆分样本,考虑外样本的预测准确率。
接下来介绍什么是错判率以及怎么求AUC、ROC曲线
混淆矩阵:
| 预测值 | 总计 | ||
0 | 1 | |||
真实值 | 0 | 68 | 14 | 82 |
1 | 45 | 166 | 211 | |
总计 | 113 | 180 | 293 |
错分率:即预测值与真实值不一致的比例,如上表数据可得错判率:(45+14)/293
当样本中去零的数值很少时,该错分率的作用很小,例如:样本总数1000,其中有20个0
那么就算全部把0预测为1,错分率:20/1000=0.02.
TPR(true positive rate):TPR=TP/P,直观意思就是:能准确预测1的个数占总额的比率
FPR(false positive rate):FPR=FP/N,同理,该为,不能准确预测0的个数占1总额的比率。
ROC曲线的解读:
横纵坐标的含义:横坐标为FRP,意为特异度,纵坐标为TPR,以为灵敏度
对于阀值得选取,ROC曲线下面的面积反映的是该模型的预测能力。
即AUC的取值越大,预测能力越大。
那怎么求AUC呢?就是ROC曲线下方的面积值。