在这个信息过载的时代,推荐应该做精准营销——target marketing。如果先做一个用户画像(profile),则会更精准的推荐用户需要的。
![4b57472551e43c8912be979d184f7902.png](https://i-blog.csdnimg.cn/blog_migrate/635c49fc176a6160e64d4117ee5cc8fc.png)
Targeted Advertisement:
![41af1d9298307a59b61fc38bfad41089.png](https://i-blog.csdnimg.cn/blog_migrate/a4ce5920f965b97bc84aa7394cbdcbe4.png)
手机上,用不同网页浏览新闻会有不同的广告推荐。因为当手机浏览该网页的时候,网页的后台是可以获取你的手机型号,地理位置,可以会有更适合用户的广告投放策略。
![a4dbdefb3b4f9c01a47e0c36e1d234a4.png](https://i-blog.csdnimg.cn/blog_migrate/d990369bd393c48020c8a07f43dc4e3f.jpeg)
TF-IDF
输入一个关键词,它和计算机存储的大量文本之间关联程度的量化标准。
![10060dd5b3adfebfc1e60fdc609cc175.png](https://i-blog.csdnimg.cn/blog_migrate/c108a421c12496c927ad4cd942f59672.png)
单词在特定文档中出现的频率:TF(Term Frequency)
![4b40963c4759a4e94cb0cd4014c9e749.png](https://i-blog.csdnimg.cn/blog_migrate/e3e65cb779b4107388660fff4acf1a05.png)
英文中的冠词,例如:the,频率很高,但是没有什么意义,会在搜索的时候过滤掉
单词在其他文档中出现的频率:IDF(Inverse Document Frequency)
![cdf9d2520319a4cf1c05c659c329d5dd.png](https://i-blog.csdnimg.cn/blog_migrate/0a437aaeaa6689d364883fe5cd285b1a.png)
TF-IDF:
![71d378609662aea5606529cbac5cc45f.png](https://i-blog.csdnimg.cn/blog_migrate/ae2d6c5ddbe531cb1752686975852b3c.png)
Multiple query words:
![deb5673f68772f3aeccf2b24c666cd59.png](https://i-blog.csdnimg.cn/blog_migrate/30973f06939f2999f08a582973c7eef9.png)
Trem-Document Matrix:
文本处理的时候常常建立这种矩阵
![3cbb5b87870bc5d950e9660a4496f5a5.png](https://i-blog.csdnimg.cn/blog_migrate/766a2c169061d93377bcafdbcb6193f9.png)
Vector Space Model
计算机是不会处理文字的,所有的文本都需要转换为数值的形式
给定一个文本(规定1w个关键词),那么一篇文档就会变为一个1w维的向量,向量每一位说明这个单词是否出现(0,1)或者出现次数或TF-IDF。
![9c9b9702f0d9064e3ee72fcb8b2b41c3.png](https://i-blog.csdnimg.cn/blog_migrate/3bbb66f905eef26e03b955375c7a694c.png)
由于已经转换成了两个向量,那么我们可以通过计算两个向量的余弦值(夹角大小)来量化两个向量的相似程度,用该方法也可以进行文档聚类。如果两个向量的夹角越