机器学习中，有哪些特征选择的工程方法？

最新推荐文章于 2021-10-15 16:30:20 发布

绝对不要看眼睛里的郁金香

最新推荐文章于 2021-10-15 16:30:20 发布

阅读量398

点赞数

特征选择是特征工程中的重要问题（另一个重要的问题是特征提取），坊间常说：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程尤其是特征选择在机器学习中占有相当重要的地位。
通常而言，特征选择是指选择获得相应模型和算法最好性能的特征集，工程上常用的方法有以下：
1. 计算每一个特征与响应变量的相关性：工程上常用的手段有计算皮尔逊系数和互信息系数，皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性，但是计算相对复杂一些，好在很多toolkit里边都包含了这个工具（如sklearn的MINE），得到相关性之后就可以排序选择特征了；
2. 构建单个特征的模型，通过模型的准确性为特征排序，借此来选择特征，另外，记得JMLR'03上有一篇论文介绍了一种基于决策树的特征选择方法，本质上是等价的。当选择到了目标特征之后，再用来训练最终的模型；
3. 通过L1正则项来选择特征：L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验；
4. 训练能够对特征打分的预选模型：RandomForest和Logistic Regression等都能对模型的特征打分，通过打分获得相关性后再训练最终模型；
5. 通过特征组合后再来选择特征：如对用户id和用户特征最组合来获得较大的特征集再来选择特征，这种做法在推荐系统和广告系统中比较常见，这也是所谓亿级甚至十亿级特征的主要来源，原因是用户数据比较稀疏，组合特征能够同时兼顾全局模型和个性化模型，这个问题有机会可以展开讲。
6. 通过深度学习来进行特征选择：目前这种手段正在随着深度学习的流行而成为一种手段，尤其是在计算机视觉领域，原因是深度学习具有自动学习特征的能力，这也是深度学习又叫unsupervised feature learning的原因。从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。
整体上来说，特征选择是一个既有学术价值又有工程价值的问题，目前在研究领域也比较热，值得所有做机器学习的朋友重视。

补充一点点，传统统计方法里面喜欢用前进或者后退法的逐步回归来筛选特征或者对特征重要性排序，对于特征数量不多的情况还是适用的。

作者：江嘉键
链接：https://www.zhihu.com/question/28641663/answer/107680749
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

最近一段时间，我们米筐科技量化策略研究团队在自己的策略研究平台上，做了一些量化分析方面的特征工程和特征选择研究。关于它们在量化交易中的应用，我可以分享一下我们团队的经验。

首先，追本溯源，为什么特征工程和特征选择值得讨论？在实际的数据分析和建模中，我们通常要面对两种情况：1 数据集中已有的特征变量不够多，或者已有的特征变量不足以充分表征数据的特点；2 我们拥有大量的特征，需要判断出哪些是相关特征，哪些是不相关特征。特征工程解决的是第一个问题，而特征选择解决的是第二个问题。

对于特征工程来说，它的的难点在于找到好的思路，来产生能够表征数据特点的新特征变量；而特征选择的难点则在于，其本质是一个复杂的组合优化问题（combinatorial optimization）。例如，如果有 30 个特征变量，当我们进行建模的时候，每个特征变量有两种可能的状态：“保留”和“被剔除”。那么，这组特征维度的状态集合中的元素个数就是 $2^{30}$ 。更一般地，如果我们有 N 个特征变量，则特征变量的状态集合中的元素个数就是 $2^{N}$ 。因此，从算法角度讲，通过穷举的方式进行求解的时间复杂度是指数级的（O( $2^{N}$ )）。当 N 足够大时，特征筛选将会耗费大量的时间和计算资源（图1）。在实际应用中，为了减少运算量，目前特征子集的搜索策略大都采用贪心算法（greedyalgorithm），其核心思想是在每一步选择中，都采纳当前条件下最好的选择，从而获得组合优化问题的近似最优解。

图1：通过穷举法求解特征选择问题的二叉树表示。状态集合中元素的个数随特征变量数目增加而呈现指数增长。

目前很多流行的机器学习的材料，都未能给出特征工程和特征选择的详细论述。其主要原因是，大部分机器学习算法有标准的推导过程，因而易于讲解。但是在很多实际问题中，寻找和筛选特征变量并没有普适的方法。然而，特征工程和特征选择对于分析结果的影响，往往比之后的机器学习模型的选择更为重要。斯坦福大学教授，Coursera 上著名的机器学习课程主讲老师 Andrew Ng 就曾经表示：“基本上，所谓机器学习应用，就是进行特征工程。”

在特征工程和特征选择的在量化交易的应用方面，我们试图回答以下两个问题：

1 如何对沪深300指数进行特征工程？

$\cdot$ 2 如何尽可能减少数据，以及算法本身的局限性给特征选择带来的负面影响？

接下来，就以上两个问题，不揣浅陋，我分享一些我们团队的经验和思考。

1 沪深300指数的特征工程

在量化分析中，常见的因子大致可以分为四类：

（1）量价因子，例如成交量，收盘价等；

（2）基本面因子，例如市盈率，所属行业等；

（3）技术分析因子，例如MACD, DIF等；

（4）宏观经济因子（或称外部响应因子），例如利率，各个季度的经济数据等。

1970年，尤金 $\cdot$ 法马（Eugene Fama）提出了有效市场理论，认为证券资产价格包含一切的市场信息。这就是量价因子能够反映市场特征的根本依据。对于一个非有效市场而言，我们认为，量价因子甚至可能更为重要：任何人根据非公开信息进行交易，其交易信息仍然会反映在量价因子中。类似的观点更接近于有效市场理论的强假设版本：市场上一切公开或非公开的信息，都会反映在资产的价格中。

基于这个思路，在四类因子中，我们首先尝试对量价因子实现特征工程。2015年，在一篇名为《WorldQuant Formulaic 101 Alphas》的研究报告中，以数据挖掘能力而闻名业界的对冲基金WorldQuant LLC 给出了他们的 101 个阿尔法的数学表达式。在报告中，这些阿尔法表达式被分为了趋势追随，均值回归和混合型三种。既然这 101 个阿尔法表达式在实践中被证明行之有效，且对应明确的市场意义（趋势，反转和混合），在特征工程研究中，我们使用报告中的变换方法和阿尔法表达式为基础，构造了60 个特征变量，用于下一步的机器学习建模。这 60 个特征变量的构建过程，可参看我们第二份报告的附录2。

2 集成特征打分器 (Ensemble Feature Grader, EFG)

如上所述，特征选择的本质上是求解一个计算量随特征变量个数呈指数增长的组合优化问题。基于不同的子集搜索和评价标准，不同的方法给出的都只是一个近似最优解，而解的合理性也将受方法本身的局限性所影响。因此，为了系统化地进行特征选择，获得更为合理的相关特征变量子集，在这里我们借鉴机器学习里面的集成学习（ensemble learning）的思想，提出一个集成特征打分器（以下称EFG)。在这个打分器中，我们使用了八种方法（Pearson 相关系数，距离相关系数，简单线性回归，基于AIC的Lasso回归，基于BIC的Lasso回归，随机森林，循环特征剔除和岭回归）对特征变量分别进行打分，并进而计算其总得分，以尽量减少数据和单一特征选择方法引起的问题，进而改善特征选择的效果。

我们进一步使用了 Frideman 训练集对 EFG 进行测试。这个训练集中包含非线性相关项，噪音项，权重不同的线性相关项和引起多重共线性的项，基本上囊括了实际数据处理中可能出现的主要问题，而 EFG 的测试表现令人满意。有兴趣的朋友，可以参看我们第二份研究报告附录1，了解详细的测试过程和结果。

在实际建模中，我们使用 EFG 对上一步获得的 60 个特征变量进行打分，筛选出 14 个得分较高的特征变量，并以此进行了聚类分析。我们发现两个聚类所对应的不同收益率分布，其中第一个聚类所包含的交易日，其下一个交易日的收益率的均值明显高于第二个聚类所对应的均值。基于这个结果，我们实现了一个基准择时策略。其思路是，如果一个交易日和聚类1的距离较近，我们就进行买入；离聚类2较近，则不进行交易。下午为该策略的累计收益率（图2），其表现明显好于长期持有沪深300指数相关的资产。

图2：使用 EFG 进行特征选择后累积收益率曲线计算：(a)沪深300指数；(b) 在聚类1包含的交易日进行交易；(c) 在聚类2包含的交易日进行交易

以上就是我们在利用机器学习算法进行金融量化分析中的经验和尝试。关于下笔为文，古人有一句真知灼见：“结字因时而变，运笔千秋不易。” 对于数据分析和建模来说，道理也不外如是。计算机理论和机器学习算法的发展，使得数据分析和建模成为了这个时代的显学。目前，用R 或者 Python 等高级编程语言实现一个复杂的模型，所需的可能就是区区几十行代码。但是自问自心，我们是否能够真的对于数据和模型做得了如指掌？是否能保证当模型出现问题时，我们能知其所以然？在一个足够长的时间维度内，我们认为，在数据建模和量化交易中能够出类拔萃的人，始终应该保持着对数据和算法全面，准确，深刻的理解和思考。

概而言之，拨开数据的重重迷雾，理解和预测复杂多变的金融市场，即使不考虑其物质回报，其过程本身也令人着迷。我们走上了这条荆棘丛生，又有壮丽风光的旅途，乐于体认这个过程中一切的艰辛和甘甜。希望我们这里所叙述的经验和思考，也对你有所启发。

研究报告链接：

com/p/21337419

com/p/21406355

绝对不要看眼睛里的郁金香

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习中，有哪些特征选择的工程方法？

特征选择是特征工程中的重要问题（另一个重要的问题是特征提取），坊间常说：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言，特征选择是指选择获得相应模型和算法最好性能的特征集，工程上常用的方法有以下：1. 计算每一个特征与响应变量的相关性：工程上常用的手段有计算皮尔逊系数和互信息系数，皮尔逊系数只能衡量
复制链接

扫一扫