数据思维笔记

最新推荐文章于 2021-03-21 04:32:20 发布

J_sir2015

最新推荐文章于 2021-03-21 04:32:20 发布

阅读量702

点赞数

分类专栏： R

本文链接：https://blog.csdn.net/J_sir2015/article/details/82491693

版权

R 专栏收录该内容

19 篇文章 1 订阅

订阅专栏

数据思维笔记

数据介绍：

通过数据说明表进行表述，表格格式如下：

表1-1

变量类型	变量名	详细说明	取值范围	备注
因变量	综合成绩
自变量	平时表现评分
	考试评分
	实践活动评分
	获奖评分

一般会增加一段文字说明，例如：本案例所用数据来源于牛客网，共2000条观测值，包含14个变量，每条观测值代表一个数据分析岗位的信息，按照xxxx标准，将变量归纳为两大组等等

数据可视化的探索

即考察变量的变动情况。

除了统计图形要准确以为，主要的点在于对于图标信息的描述，如何组织语言很重要，往往可以往以下几个思路进行：

什么值最常见，为什么？
分布情况，特征值，如均值，中位数。
什么值最罕见？为什么？符合我预期的结果么？
其中有什么模式么？

其中，多与业务实际联系。

对于探索性的结果，我们一般从两方面总结：

直观表达
建议

建模的三个步骤：

建模前的准备、模型的选择、模型的解读以及评价。

建模前的准备：缺失值处理、数据标准化、异常值排查等

模型选择：根据是否有因变量将统计学习分成无监督学习和有监督学习

对于有监督学习来说，因变量累数据类型不同导致不一样的方法。

模型的解读与评价：主要考察模型的预测精度以及解读能力两方面进行评价。

因变量为定量型：常用均方误差、绝对误差、相对误差。本质都是考察预测值与真实值之间的差距。如果是定性变量：常用错判率、AUC等准则。

防止过拟合的方法：拆分样本，考虑外样本的预测准确率。

接下来介绍什么是错判率以及怎么求AUC、ROC曲线

混淆矩阵：

		预测值		总计
		0	1	总计
真实值	0	68	14	82
真实值	1	45	166	211
总计		113	180	293

错分率：即预测值与真实值不一致的比例，如上表数据可得错判率：（45+14）/293

当样本中去零的数值很少时，该错分率的作用很小，例如：样本总数1000，其中有20个0

那么就算全部把0预测为1，错分率：20/1000=0.02.

TPR(true positive rate):TPR=TP/P,直观意思就是：能准确预测1的个数占总额的比率

FPR(false positive rate):FPR=FP/N，同理，该为，不能准确预测0的个数占1总额的比率。

ROC曲线的解读：

横纵坐标的含义：横坐标为FRP，意为特异度，纵坐标为TPR,以为灵敏度

对于阀值得选取，ROC曲线下面的面积反映的是该模型的预测能力。

即AUC的取值越大，预测能力越大。

那怎么求AUC呢？就是ROC曲线下方的面积值。

J_sir2015

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据思维笔记

数据思维笔记数据介绍：通过数据说明表进行表述，表格格式如下：表1-1 变量类型变量名详细说明取值范围备注因变量综合成绩自变量 ...
复制链接

扫一扫

专栏目录

数据思维笔记

“相关推荐”对你有帮助么？