特征工程
haozhepeng
这个作者很懒,什么都没留下…
展开
-
特征降纬PCA,LDA
参考 :https://www.jianshu.com/p/6a9db201cb13当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。但不要盲目降维,当你在原数据上跑到了一个比较好的结果,又嫌它太慢的时候才进行降维,不然降了半天白降了。常见的降维方法有主成分分析法(PCA)和线性判别分析(LDA),线性判别分析...转载 2019-07-13 23:22:04 · 180 阅读 · 0 评论 -
归一化和标准化
转自:https://www.cnblogs.com/nxf-rabbit75/archive/2019/04/11/10688593.html一、是什么?1.归一化 是为了将数据映射到0~1之间,去掉量纲的过程,让计算更加合理,不会因为量纲问题导致1米与100mm产生不同。 归一化是线性模型做数据预处理的关键步骤,比如LR,非线性的就不用归一化了。 归一化就...转载 2019-07-13 23:50:46 · 265 阅读 · 0 评论 -
如何解决样本不均衡问题
转:https://zhaokv.com/machine_learning/2016/01/learning-from-imbalanced-data.html这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与...原创 2019-07-13 23:52:22 · 512 阅读 · 0 评论 -
特征工程
转https://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3...转载 2019-07-13 23:59:28 · 113 阅读 · 0 评论 -
处理缺失值
处理缺失值主要有以下几种方法:1.当某个变量或者某个样本中缺失值占比过大时,那么我们可以认为这一变量或者样本没有意义,可以直接删除。2.用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。3.用其他变量做预测模型来算出缺失变量。效果比方法2略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建...转载 2019-07-14 08:58:22 · 1065 阅读 · 0 评论