机器学习如何计算特征的重要性_国华汇金FOF研究专题——机器学习模型的解释方法之特征重要性...

本文探讨了人工智能选股模型中,特征重要性的概念,如何通过决策树和XGBoost模型计算信息增益来理解模型运作。强调了理解模型的重要性,尽管非线性拟合强大,但特征重要性方法提供了一种简洁的解释方式,尽管存在方向性缺失和概括性问题。
摘要由CSDN通过智能技术生成
f69ea60d1cc665539fdc115cdfc70f70.png近年来人工智能选股模型逐渐发展并获得追捧,然而人工智能模型具有高度复杂性和低解释性,决定其在多数时候难以被人脑理解,从而成为黑箱。 实际上,人工智能算法,即使是近年来发展迅猛的深度神经网络,在本质上和线性回归模型并无不同之处,都是对样本特征和标签进行拟合,最大的区别就是机器学习模型的非线性拟合能力更强。 因此我们还是需要尽可能的理解人工智能模型,这样有利于我们在出现风险问题时进行有效的处理。 近年来,很多研究者对解释机器学习模型提出了很多方法,特征重要性(Feature Importance)是其中一种。 特征重要性的核心思想是计算依据某个特征进行决策树分裂时分裂前后信息的增益。 信息增益越大,说明该特征越重要。 特征重要性源于决策树模型,机器学习算法中的XGBoost模型是决策树的串行集成,因此也具有特征重要性的特点,特征重要性是最传统的机器学习模型解释方法之一。 特征重要性的计算始于Gini指数(Gini Index),Gini指数用来定义决策树分裂前后的信息增益程度。 对于一次完美的分裂,分裂前各类样本是混合在一起的,这时Gini指数很高; 按照一定特征进行分裂后,每棵子树内的样本就变成单一的类别,这时Gini指数较低; 因此分裂前后Gini指数增益较大。 也就是说,特征越重要,分裂前后Gini指数增益就越大。 当然,特征重要性的描述方法不止有信息增益,还可以是样本覆盖度和分裂次数,但信息增益是最常用的。 使用特征重要性解释人工智能模型的最大优点是特征重要性是高度简洁的,并且由于是归一化指标,在模型之间也具有可比性。 但缺点就是不能体现因子的大小对于模型输出影响的方向,而且过于笼统,不能给出因子对模型输出影响的具体情况。   (来源: 国华汇金FOF基金经理王欣)

732c05bc6324cb1da8c5b24fbce4ce02.png

4c560b87e211c1f75d97b389a7d026f0.png

国华汇金秉持“开放、合作、诚信、共赢”的经营理念,以开放的心态吸纳合作伙伴,建立多样的合作模式,打造极具诚信的团队,与合作伙伴建立共赢机制,以共赢求发展。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值