欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!
对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tsaiedu,并注明消息来源,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。
作者:博观厚积
简书专栏:https://www.jianshu.com/u/2f376f777ef1
1.关于特征选择
简单来说,特征选择就是在你使用机器学习算法之前,通过相关处理来选择与你的预测变量或者输出结果,最有用或最相关的那些特征。它是特征工程的一部分,在机器学习中,我们通常会面临非常多的特征变量,几十个甚至上百个。对于这些特征,一方面全部纳入机器学习算法中会导致计算机开销很大,影响训练效率,另一方面,部分特征并不与预测变量有太大相关,纳入算法中反而会降低模型的准确性,特别是在线性回归、逻辑回归等算法中。
特征选择的好处有:
减少过度拟合:减少冗余数据意味着根据噪声做出决策的机会减少。
提高准确度:减少误导性数据意味着提高建模精度。
缩短训练时间:减少数据意味着算法训练更快。
2.机器学习中的特征选择方案以及Python举例
下面以python的sklearn中自带iris鸢尾花数据集为例,来简单演示一些特征选择的案例以及Python实现。该数据集是个二分类问题,且所有属