c++svd算法_数据挖掘——推荐算法(数据挖掘的最广泛应用)

在这个信息过载的时代,推荐应该做精准营销——target marketing。如果先做一个用户画像(profile),则会更精准的推荐用户需要的。

4b57472551e43c8912be979d184f7902.png

Targeted Advertisement:

41af1d9298307a59b61fc38bfad41089.png
比如,可以根据浏览的新闻预测兴趣点进行推荐

手机上,用不同网页浏览新闻会有不同的广告推荐。因为当手机浏览该网页的时候,网页的后台是可以获取你的手机型号,地理位置,可以会有更适合用户的广告投放策略。

a4dbdefb3b4f9c01a47e0c36e1d234a4.png
网站会预先推荐一系列的音乐。根据用户听音乐的时间,对音乐的一系列操作都会使系统推荐更适合用户的音乐

TF-IDF

输入一个关键词,它和计算机存储的大量文本之间关联程度的量化标准。

10060dd5b3adfebfc1e60fdc609cc175.png
word loud

单词在特定文档中出现的频率:TF(Term Frequency)

4b40963c4759a4e94cb0cd4014c9e749.png
一般性的定义

英文中的冠词,例如:the,频率很高,但是没有什么意义,会在搜索的时候过滤掉

单词在其他文档中出现的频率:IDF(Inverse Document Frequency)

cdf9d2520319a4cf1c05c659c329d5dd.png
例如:the,每个文档都出现,值为0

TF-IDF:

71d378609662aea5606529cbac5cc45f.png

Multiple query words:

deb5673f68772f3aeccf2b24c666cd59.png

Trem-Document Matrix:

文本处理的时候常常建立这种矩阵

3cbb5b87870bc5d950e9660a4496f5a5.png
每一列代表文章,行代表单词

Vector Space Model

计算机是不会处理文字的,所有的文本都需要转换为数值的形式

给定一个文本(规定1w个关键词),那么一篇文档就会变为一个1w维的向量,向量每一位说明这个单词是否出现(0,1)或者出现次数或TF-IDF。

9c9b9702f0d9064e3ee72fcb8b2b41c3.png

由于已经转换成了两个向量,那么我们可以通过计算两个向量的余弦值(夹角大小)来量化两个向量的相似程度,用该方法也可以进行文档聚类。如果两个向量的夹角越

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值