推荐算法
当前的时代,经常会听到推荐两个字。比如:
- qq好友推荐
- 淘宝购物推荐
- 听音乐,音乐推荐
- 看电影,电影推荐
那么这些东西计算机到底是如何实现的呢?
最关键、最难以理解的就是数字化和抽象化,计算机是不可能像人一样给你分析的,一定是将实际中的问题转化成数字问题来解决,最关键的就是如何数字化,换成面向对象来说就是如何抽象。
实际上以上的推荐,从不同程度进行分析。是不一样的。他们的数据结构的组成不一样,实现的方法也就不一样。比如简单的好友推荐实际上会采用图式数据结构,比如说A是B的好友,C也是B的好友,那么当A登录的时候,他可能也会认识C,所以将C推荐给A这样就实现了好友的推荐。图这个数据结构细分又能分为有向图,无向图、有向带权图、无向带权图等等;这些区别分别解决不同的问题,就还是刚刚这个qq好友推荐的问题,A和B之间是没有方向这个概念的,A时候B的好友,B也是A的好友。所以这个采用无向图;但很多的地方会有方向的概念,比如微博和粉丝,A关注了B,不代表B也关注了A,像这样的问题就应该用有向图;还是举例QQ好友推荐的例子,A认识B,B认识C,很大概率上是不应该把C推荐给A的,实际生活中,你有很熟悉的朋友,这个朋友也会有很熟悉的人,很大程度上你会认识这个人,哪怕不认识至少也听过名字,这个时候我可以把这个朋友推荐给你。这样就能提升准确性。这个推荐我们可以用权来表示,也是一个抽象和数字量化的问题,比如我可以把A和B的亲密程度表示一下,B和C的亲密程度表示一下,这样当两个亲密程度都达到一定值时,这时候把C推荐给B。怎么去表示亲密程度呢,简单做你可以用一个值去表示,只要他们经常聊天经常互动,他们的亲密程度就会上升,当上升到一定值时来推荐好友。但是这是一个网络时代,经常聊天的朋友不代表实际生活中也认识,那也可以用其他维度来代替,比如qq都有实名认证,和手机号绑定,用手机登录qq的时候是可以获取的手机的通讯录的,可以把手机中的通讯录的手机号列表跟你qq好友里面的列表绑定的手机号列表进行比对,当包含的时候我们认为你的这个好友是实际生活中的朋友。这种有权的推荐是目前社交里面所使用的方法。
以上的这种图式的推荐好友并不适用于购物推荐、音乐推荐等。你不能说你喜欢了《年少有为》,《年少有为》也喜欢你,他是物品,不适合这样去做。实际上像这种物品类的推荐都可以采用以下几种思路。
第一种:基于好友的推荐。
基于好友的推荐,那么就跟上面说的有点类似了,但是系统里面要有这种完善的社交功能才能使用好友歌曲推荐。以上已经说了好友的推荐,这里就不用赘述了。
第一种:基于相似用户的推荐
基于相似用户的推荐,关键就在于如何定义相似用户。其实基于好友推荐也可以归纳为相似用户的推荐。使用相似用户推荐这里有一个算法叫做欧几里得距离(Euclidean distance);也就是向量,我们 在数学中学过向量,比如点A(x1,y1),就能表示成一个向量,点B(x2,y2)也可以表示成向量。这个时候可以根据公式求出点A和点B的向量距离。
Double distance = Math.sqrt((x1-x2)(x1-x2) + (y1-y2)(y2-y2))
实际上这两个点是二维空间,一维空间也是可以表示向量距离的。 比如A(x1),B(x2)
Double distance = Math.sqrt((x1-x2)(x1-x2))
总结归纳,多维的公式也可以写成这样,有几维就会有几个变量
Double distance = Math.sqrt((x1-x2)(x1-x2) + (y1-y2)(y2-y2) + ... + (n1-n2)(n2-n2))
这样就能抽象出来n维之间的距离。回到文章本身,这个向量跟推荐有什么关系呢?
我们可以把你对歌曲的行为进行量化,打分。比如单曲循环的歌曲我们认为是非常喜欢,设置为喜爱的歌曲我们认为是比较喜欢,收藏的歌曲设置为喜欢,不同的分数不同如下表
行为 | 级别 |
---|---|
单曲循环 | 5 |
喜爱 | 4 |
收藏 | 3 |
听完 | 2 |
听一半 | 1 |
没听过 | 0 |
年少有为 | 十年 | 勇气 | 李白 | |
---|---|---|---|---|
小明 | 5 | 4 | 3 | 0 |
小李 | 5 | 3 | 1 | 1 |
小红 | 1 | 2 | 0 | 0 |
小王 | 5 | 3 | 2 | 5 |
这样就是4维空间,我们把每个人之间的向量距离求出来,当这个距离大于某个值时我们认为他们是相似用户,这样就可以把相似用户的歌曲进行推荐。
第二种:基于相似歌曲的推荐
相似用户的推荐,要求要有很大的用户量,才能推荐。但是如果项目刚开始并没有多少人用,怎么准确的推荐呢。方法是一样的,我们刚刚还是在给用户增加标签,换个思路给物品增加标签。假设我们推荐的是歌曲,那么我们可以把歌曲进行抽象,分类,或者说加标签。一个歌曲可能会有很多标签,比如这个歌曲类型是摇滚、流行、安静类等。歌曲的演唱选手等,当我们 组建一个足以清楚的描述一首歌曲的特征时,我们也可以算出歌曲的向量距离,然后向量距离高出某值就做推荐
这个特征的采集也是一个庞大的工程,我们也可以这样说两首歌曲如果喜欢听的人群是差不多的,可以侧面反映出这两首歌曲是相似的。就跟基于相似用户的思路一致了。
其实推荐算法还有很多,以上只是简单的描述。有兴趣可以再深研究!