![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ML特征工程
csdn_SUSAN
成长才是最重要的!
展开
-
数据和模型相关的总结
文章目录1. 机器学习到底需要多少数据2. 模型选择这里记录一些平时读到的数据相关的思考和总结,以便用到的时候方便查阅。1. 机器学习到底需要多少数据参考知乎文章《「机器学习」到底需要多少数据》(1) 数据的粒度是否满足问题的需要。(2) 考虑数据量和维度的关系,这里考虑维度灾难。(3) 数据的重复性,包括样本之间的重复性和特征之间的重复性。(4) 数据的有效性,两个看似关联的数据实...原创 2019-12-11 11:13:28 · 522 阅读 · 0 评论 -
维度灾难和特征选择
文章目录1. 什么是维度2. 什么是维度灾难3. 为什么会产生维度灾难4. 怎么避免维度灾难1. 什么是维度一句话:维度是一个数字,表征每个样本中特征的数量。机器学习中,对于数据一般用n∗mn*mn∗m矩阵表达,nnn表示样本(sample)数量,mmm表示特征(attribute/feature/variable)数量。如下图,即是4∗24*24∗2的矩阵,表示有4条数据,每个数据有2个特...原创 2019-12-10 17:53:41 · 2341 阅读 · 0 评论 -
连续特征离散化的应用总结
文章目录1. 什么是连续特征离散化2. 为什么要离散化1.1 离散化的优点1.2 离散化缺点1.3 LR模型为什么适合离散特征3. 怎么离散化3.1 无监督学习方法3.2 有监督学习方法: 李沐曾经说过:模型是使用离散特征还是连续特征,其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。 离散特征是可枚举的特征,连续特征是不可枚举的特征,在《机器学习中的特征变量及处...原创 2019-12-10 11:35:51 · 2695 阅读 · 0 评论 -
机器学习中的特征变量及处理总结
文章目录1. 定性特征变量1.1 定类变量处理1.2 定序变量处理2. 定量特征变量3. 总结 牢记一句话:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。 机器学习的根本目标,就是用数据的特征变量去对目标变量进行预测。那么我们所遇到的特征变量有哪些种类呢?各个种类又该如何处理呢? 总体而言,所有的特征变量可以归为两大类:定性特征和定量特征,我们依次看一下。1....原创 2019-12-09 20:48:41 · 11436 阅读 · 0 评论