特征工程
lukeyyanghang
这个作者很懒,什么都没留下…
展开
-
特征工程概述
“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。 特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。 特征工程分为3部分,特征构建,特征提取和特征选择。 特征构建需要一定的建模工...原创 2019-01-24 14:12:49 · 575 阅读 · 0 评论 -
奇异值分解SVD
散度矩阵就是协方差矩阵乘以(总数据量-1)。因此它们的特征值和特征向量是一样的。这里值得注意的是,散度矩阵是SVD奇异值分解的一步,因此PCA和SVD是有很大联系。 散度矩阵=类内离散度矩阵=类内离差阵=协方差矩阵×(n-1) 样本的协方差矩阵乘以n-1倍即为散布矩阵,n表示样本的个数,散布矩阵的大小由特征维数d决定,是一个为d×d 的半正定矩阵。...转载 2019-01-27 11:04:39 · 250 阅读 · 0 评论 -
主成分分析PCA
什么是PCA?PCA,Principle Component Analysis,即主成分分析法,是特征降维的最常用手段。顾名思义,PCA能从冗余特征中提取主要成分,在不太损失模型质量的情况下,提升了模型训练速度。通常用于高维数据集的探索与可视化。PCA可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分。主成分能够尽可能保留原始数据的信息。 举个例子,球和圆。一个三维空间的球...原创 2019-01-27 11:09:31 · 232 阅读 · 0 评论 -
Label Encoding & One-Hot Encoding
为什么需要Encoding?绝大多数模型不支持类别型变量的输入, 什么是One-Hot Encoding?One-Hot编码即独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。这样做的好处主要有:1.解决了分类器不好处理属性数据的问题;2.在一定程度上也起到了扩充特征的作用(有利有弊)...原创 2019-01-23 11:23:21 · 2526 阅读 · 2 评论