from: http://www.hxxiaopei.com/?p=141
最近在做推荐产品,读了一些论文,客观的说,扯淡的居多,基本的思路也差不多,结合工作的情况,谈一下tag推荐的产品形态、主要问题以及如何推荐
产品形态以及主要问题
tag 的推荐系统,顾名思义,利用用户或者item的 tag信息进行推荐,涉及到两个产品形态:
1.tag-based recommend,基于tag信息推荐item给用户
2.tag recommend,给用户推荐tag
无论1,还是2,都面临一个问题,tag从哪里来?这个是tag推荐系统最为关键的事情。通常来讲,有4个:
1.专家标注,貌似jnni是这样做的
2.UGC,由用户产生,douban等很多都是这样搞得
3.系统产生,利用用户/item数据
4.人工和系统相结合
解决了tag产生的问题,构建tag体系后,我们只需要抽取相关的feature,就可以完成item推荐或者tag推荐。
tag产生
工程上分析一下如何生成tag:
1.专家标注
目前大多数公司不现实,尤其是startup时,不可能有这么大的投入。
在垂直领域,这个问题可以简化,成熟的相关网站抓取,比如3C类,可以去京东,中关村在线等,结构化数据,效果不错。
覆盖率可能不够,但是作为startup公司或者要求不高时,应该够用,如果做深,是一个无底洞,taobao N多人N年搞产品库,投入很大。
所以有朋友希望兼职做做产品库挖掘,尤其说类似淘宝那种,直接拒绝。
2.UGC
tag的获取不是问题,产生的tag有很大的随意性,问题在于如何处理这些tag,主要问题:
1.书写不规范,最重要的问题,比如 美女,大美女,recomend system recomendation system, RS 等等,需要做归一化
2.同义关系
目前UGC 产生标签,是最主要的形式,不过产品前期比较多,稳定后用户更多的会采用推荐的tag
3.系统产生
用系统产生tag,基于user或者item信息,最简单的方式,将用户访问item的title取出来&