推荐系统(二)微博广告推荐

业务场景:根据用户近期发布的微博,来推荐相关广告。简单说就是根据微博内容中所涉及到的词条与广告关键词的匹配度来推荐。
用到的关键算法:tf-idf算法,它是一个文本挖掘的重要算法,用来评估字/词对于一个语料库中的一份文本文件的重要程度,字/词的重要性会随着它在该文本文件中出现的次数增加而增加,同时随着它在整个语料库中出现的次数增加而减少。这个很好理解,就是说,如果一个词在所有文本文件里都出现了,那么它就无法区分某一个文本文件的独特性,相反,如果它只在一个文本文件里出现,那么就能很好的区分出这个文本,而且它在这个文本出现次数越多,证明它越能区分出这个文本与其他的不同。
tf-idf算法有一个计算文本中单词权重的公式:W=TF*log(N/DF)
TF:总词频,即该单词在其所在的文本文件中出现的次数
DF:该单词在多少个文本文件里出现过,如果在一个文件里出现多次,只算一次
N:总的文件数量。
,具体对应到微博业务中来,每一条微博就是一个文本文件,所有的微博算作一个语料库。我们最终得到的结果是,每一条微博中的每一个词(IK分词器分出的结果)的权重。比如下面是对id为3824242493952324和3824243084883820这两条微博的最终计算结果。

3824242493952324 我:2.19722 集市:6.97073 那会儿:6.97073 豆浆:2.77259 约:1.09861 真希望:6.97073 更新换代:6.97073 挣钱:6.27664 在:2.70805 后来:3.91202 卖:5.17615 上有:6.27664 上:3.17805 二老:6.97073 给我:3.91202 天天:3.97029 打:4.26268

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值