近年来人工智能选股模型逐渐发展并获得追捧,然而人工智能模型具有高度复杂性和低解释性,决定其在多数时候难以被人脑理解,从而成为黑箱。
实际上,人工智能算法,即使是近年来发展迅猛的深度神经网络,在本质上和线性回归模型并无不同之处,都是对样本特征和标签进行拟合,最大的区别就是机器学习模型的非线性拟合能力更强。
因此我们还是需要尽可能的理解人工智能模型,这样有利于我们在出现风险问题时进行有效的处理。
近年来,很多研究者对解释机器学习模型提出了很多方法,特征重要性(Feature Importance)是其中一种。
特征重要性的核心思想是计算依据某个特征进行决策树分裂时分裂前后信息的增益。
信息增益越大,说明该特征越重要。
特征重要性源于决策树模型,机器学习算法中的XGBoost模型是决策树的串行集成,因此也具有特征重要性的特点,特征重要性是最传统的机器学习模型解释方法之一。
特征重要性的计算始于Gini指数(Gini Index),Gini指数用来定义决策树分裂前后的信息增益程度。
对于一次完美的分裂,分裂前各类样本是混合在一起的,这时Gini指数很高;
按照一定特征进行分裂后,每棵子树内的样本就变成单一的类别,这时Gini指数较低;
因此分裂前后Gini指数增益较大。
也就是说,特征越重要,分裂前后Gini指数增益就越大。
当然,特征重要性的描述方法不止有信息增益,还可以是样本覆盖度和分裂次数,但信息增益是最常用的。
使用特征重要性解释人工智能模型的最大优点是特征重要性是高度简洁的,并且由于是归一化指标,在模型之间也具有可比性。
但缺点就是不能体现因子的大小对于模型输出影响的方向,而且过于笼统,不能给出因子对模型输出影响的具体情况。
(来源:
国华汇金FOF基金经理王欣)
国华汇金秉持“开放、合作、诚信、共赢”的经营理念,以开放的心态吸纳合作伙伴,建立多样的合作模式,打造极具诚信的团队,与合作伙伴建立共赢机制,以共赢求发展。