如何提高机器学习模型预测准确率

最新推荐文章于 2024-08-07 21:18:06 发布

lucky_xy1997

最新推荐文章于 2024-08-07 21:18:06 发布

阅读量4.2k

点赞数 2

分类专栏： Python数据分析与数据挖掘文章标签：机器学习数据挖掘

原文链接：https://zhuanlan.zhihu.com/p/25013834

版权

12 篇文章 0 订阅

订阅专栏

转载：https://zhuanlan.zhihu.com/p/25013834

这篇文章主要从工程角度来总结在实际运用机器学习进行预测时，我们可以用哪些tips来提高最终的预测效果，主要分为Data Cleaning，Features Engineering， Models Training三个部分。

#R里面可以使用unique()函数判断，如果返回值为1，则意味着为constant features

#R中可以使用caret包里的nearZeroVar()函数
#Python里可以使用sklearn包里的VarianceThreshold()函数

#比如原本-1代表negative，1代表positive，那么missing value就可以全部标记为0
#对于多分类的features做法也类似二分类的做法
#对于numeric values,可以用很大或很小的值代表missing value比如-99999.

可以用mean，median或者most frequent value进行填补

#R用Hmisc包中的impute()函数
#Python用sklearn中的Imputer()函数

利用其他column的features来填补这个column的缺失值（比如做回归）

#R里面可以用mice包，有很多方法可供选择

注意：不是任何时候填补缺失值都会对最后的模型预测效果带来正的效果，必须进行一定的检验。

a. Scaling and Standardization

#标准化，R用scale(), Python用StandardScaler()
#注意：Tree based模型无需做标准化

b. Responses Transformation

#当responses展现skewed distribution时候用，使得residual接近normal distribution
#可以用log(x),log(x+1),sqrt(x)等

a.离散特征转化成连续特征

b.label encoding

#主要是针对文本分析

尝试多一些的模型，比如下面这些：

在这里插入图片描述

54)]

关注

专栏目录