![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据预处理与特征工程
文章平均质量分 88
在菜菜老师课件的基础上写了一些自己的理解,运行结果,代码的注释等,是数据预处理和特征工程的学习笔记
功夫大笨鲨
这个作者很懒,什么都没留下…
展开
-
特征工程之特征选择
文章目录前言准备工作:数据的准备Filter过滤法1.1 方差过滤1.1.1 VarianceThreshold1.1.2 方差过滤对模型的影响1.1.3 为什么随机森林运行如此之快?为什么方差过滤对随机森林没很大的有影响?1.1.4 选取超参数threshold1.2 相关性过滤1.2.1 卡方过滤1.2.2 选取超参数K方法一:跑学习曲线方法二:看p值选择k(推荐,因为学习曲线运行时间长)和菜菜老师得出的结论的差异1.2.3 F检验1.2.4 互信息法总结前言要尽可能的对数据每一个特征进行了解,.原创 2021-10-25 20:07:43 · 651 阅读 · 0 评论 -
数据预处理与特征工程概述
文章目录前言一、数据挖掘的五大流程1.获取数据2. 数据预处理3.特征工程4. 建模,测试模型并预测出结果5.上线,验证模型效果二、 sklearn中的数据预处理和特征工程总结前言加油,坚持住,跟着菜菜继续学一、数据挖掘的五大流程1.获取数据2. 数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不.原创 2021-10-24 22:30:16 · 176 阅读 · 0 评论 -
数据预处理
文章目录前言一、数据无量纲化1.1 数据归一化1.1.1 不加feature_range,默认是[0,1]1.1.2 使用MinMaxScaler的参数feature_range实现将数据归一化到[0,1]以外的范围中1.1.3 使用numpy来实现归一化1.2 数据标准化1.3 StandardScaler和MinMaxScaler选哪个?二、缺失值处理2.1我们使用impute.SimpleImputer来实现这个功能2.2 也可用Pandas和Numpy进行填补,其实更加简单,随便用哪个三、处理分类.原创 2021-10-24 21:41:41 · 236 阅读 · 0 评论