数据理解和预处理阅读笔记

最新推荐文章于 2020-08-26 18:29:25 发布

YCheng10

最新推荐文章于 2020-08-26 18:29:25 发布

阅读量354

点赞数

分类专栏：杂文阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chengyn810/article/details/68070770

版权

杂文阅读笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据理解

数据的记录的详细程度（天、小时等）

确定研究群体（每部电影or每天的票房（层次分析））

理解每个变量的含义（存在冗余变量）

变量类型

分类变量：

名义变量（类别间没有顺序和好坏）转换方法0-1型哑变量；或者类别太多，将观测较多的类别拿出来，剩下的都归为“其他”

定序变量（类别间排列有好坏，会将类别程度转为数值自变量）

数值变量：代数运算

转换方式——数据分箱：等宽分箱，等频分享，基于K均值聚类的分析

1.根据取值范围

2.决策树模型不能很好的处理数值模型，使用大于、小于等运算符时处理效率很低

3.分箱后转为定序变量

质量检查

缺失检查：

一个变量的缺失程度达到70%，直接排除

其他属性计算

插值缺补

数值变量：均值，中位数

分类变量：用出现比例最高的类

变量取值合理性检查

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。