1. 说明
前两篇完成了特征工程的相关工作:加入用户的统计特征,分析文本信息内容,并作为新特征加入了数据集。
本篇我们来看看算法,实战微博互动预测(后简称本例)的评估算法如下:
公式中f代表转发,c代表评论,l代表赞,p代表预测,r代表真实值;deviation是真实值与预测值的偏差,具体公式如下:
precision是准确率,根据偏差算出:
sig为符号函数,当x>0时sig(x)=1,当x<=0时,sig(x)为0。Counti为每篇的反馈总数,当Counti>100时,以按100计算。
与大多数评估算法不同,本例中每个实例有不同权重,反馈越多实例权重越大。而我们常用的算法比如GBDT是根据误差迭代改进的,默认情况下各实例权重是一样的,这块儿需要单独处理一下。
具体算法还是使用xgboost库,之前看到的大多数关于xgboost的文章,要么是讲数学原理,要么是