出版时间:2019年
点评:这本书干货满满啊。
1.朴素贝叶斯
page92
应用:文本分类
比如,给文章自动打上分类标签。
2.TF-IDF
page112
应用:用户标签权重
原理:字词的重要性随着它在文件集中出现的次数的增加成正比增加,同时随着它在语料库中出现的频率成反比下降。
延伸应用:对于每个用户来说,其身上同一个标签出现的次数越多,该标签对于这个用户来说越重要,该标签中全部用户的所有标签产生的标签集中出现的次数越多,该标签的重要性越低。
3.时间衰减系数
page114
应用:用户标签权重
参考原理:牛顿冷却定律数学模型
F(t)=初始温度 * exp(-a * 间隔的时间)
延伸应用:随着时间的推移,用户的历史行为和当前行为的相关性不断减弱。如:用户搜索图书、用户搜索图书对应作者
用户标签权重=行为类型权重 * 时间衰减 * 用户行为次数 * TF-IDF计算标签权重
通过以上公式,可以对用户特征库的行为数据计算权重标签,筛选出与用户行为相关性最大的标签。
4.余弦相似度函数
page120
应用:标签相似度计算
通过对用户的标签构建“同现矩阵”的方式对标签进行聚类。如将疾病标签聚类到其对应的科室。
5.RFM用户价值模型
page75
应用:用户价值类标签