目前网络的内容越来越多,用户面临的是海量的信息,而用户对信息不熟悉的情况下,要找到优质的内容是非常困难的。目前有很多互联网产品关注优质内容的组织和展示。更进一步通过推荐算法,为不同的用户推荐不同的内容。如蘑菇街、一淘发现、新浪发现、淘宝爱逛街等等。不过这种应用非常消耗流量,如果通过算法,在尽可能少的展现次数,为用户提供需要内容,可以减少一些流量的消耗。
第一个问题是如何自动获取优质的内容。简单的说,有用户评论的、vip用户的内容、点击数量多的内容可能权重就更高一些。
第二个问题是如何把优质内容推荐给相关的用户。需要得到用户的信息,就必须分析计算每个用户的兴趣信息,用户的查询、浏览、评论信息都暴露了用户的兴趣。大型网站的用户量巨大,一般都是几千万甚至上亿的用户量,因此需要记录每个用户的profile,并且需要实时查询,在这种场景也是nosql数据库大行其道的地方。对于每一个内容或者页面,我们需要提取这个页面的类别、属性、特征,或者topic。根据用户感兴趣的东西,对页面内容做排序。