推荐算法

最新推荐文章于 2024-02-13 17:52:38 发布

caoPengFlying

最新推荐文章于 2024-02-13 17:52:38 发布

阅读量394

点赞数 1

分类专栏： javaBase 文章标签：数据结构算法推荐

本文链接：https://blog.csdn.net/caoPengFlying/article/details/89100978

版权

javaBase 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

推荐算法

当前的时代，经常会听到推荐两个字。比如：

qq好友推荐
淘宝购物推荐
听音乐，音乐推荐
看电影，电影推荐

那么这些东西计算机到底是如何实现的呢？

最关键、最难以理解的就是数字化和抽象化，计算机是不可能像人一样给你分析的，一定是将实际中的问题转化成数字问题来解决，最关键的就是如何数字化，换成面向对象来说就是如何抽象。

实际上以上的推荐，从不同程度进行分析。是不一样的。他们的数据结构的组成不一样，实现的方法也就不一样。比如简单的好友推荐实际上会采用图式数据结构，比如说A是B的好友，C也是B的好友，那么当A登录的时候，他可能也会认识C，所以将C推荐给A这样就实现了好友的推荐。图这个数据结构细分又能分为有向图，无向图、有向带权图、无向带权图等等；这些区别分别解决不同的问题，就还是刚刚这个qq好友推荐的问题，A和B之间是没有方向这个概念的，A时候B的好友，B也是A的好友。所以这个采用无向图；但很多的地方会有方向的概念，比如微博和粉丝，A关注了B，不代表B也关注了A，像这样的问题就应该用有向图；还是举例QQ好友推荐的例子，A认识B,B认识C,很大概率上是不应该把C推荐给A的，实际生活中，你有很熟悉的朋友，这个朋友也会有很熟悉的人，很大程度上你会认识这个人，哪怕不认识至少也听过名字，这个时候我可以把这个朋友推荐给你。这样就能提升准确性。这个推荐我们可以用权来表示，也是一个抽象和数字量化的问题，比如我可以把A和B的亲密程度表示一下，B和C的亲密程度表示一下，这样当两个亲密程度都达到一定值时，这时候把C推荐给B。怎么去表示亲密程度呢，简单做你可以用一个值去表示，只要他们经常聊天经常互动，他们的亲密程度就会上升，当上升到一定值时来推荐好友。但是这是一个网络时代，经常聊天的朋友不代表实际生活中也认识，那也可以用其他维度来代替，比如qq都有实名认证，和手机号绑定，用手机登录qq的时候是可以获取的手机的通讯录的，可以把手机中的通讯录的手机号列表跟你qq好友里面的列表绑定的手机号列表进行比对，当包含的时候我们认为你的这个好友是实际生活中的朋友。这种有权的推荐是目前社交里面所使用的方法。

以上的这种图式的推荐好友并不适用于购物推荐、音乐推荐等。你不能说你喜欢了《年少有为》，《年少有为》也喜欢你，他是物品，不适合这样去做。实际上像这种物品类的推荐都可以采用以下几种思路。

第一种：基于好友的推荐。

基于好友的推荐，那么就跟上面说的有点类似了，但是系统里面要有这种完善的社交功能才能使用好友歌曲推荐。以上已经说了好友的推荐，这里就不用赘述了。

第一种：基于相似用户的推荐

基于相似用户的推荐，关键就在于如何定义相似用户。其实基于好友推荐也可以归纳为相似用户的推荐。使用相似用户推荐这里有一个算法叫做欧几里得距离（Euclidean distance）；也就是向量，我们在数学中学过向量，比如点A(x1,y1),就能表示成一个向量，点B（x2,y2）也可以表示成向量。这个时候可以根据公式求出点A和点B的向量距离。

Double distance = Math.sqrt((x1-x2)(x1-x2) + (y1-y2)(y2-y2))

实际上这两个点是二维空间，一维空间也是可以表示向量距离的。比如A（x1）,B(x2)

Double distance = Math.sqrt((x1-x2)(x1-x2))

总结归纳，多维的公式也可以写成这样，有几维就会有几个变量

Double distance = Math.sqrt((x1-x2)(x1-x2) + (y1-y2)(y2-y2) + ... + (n1-n2)(n2-n2))

这样就能抽象出来n维之间的距离。回到文章本身，这个向量跟推荐有什么关系呢？

我们可以把你对歌曲的行为进行量化，打分。比如单曲循环的歌曲我们认为是非常喜欢，设置为喜爱的歌曲我们认为是比较喜欢，收藏的歌曲设置为喜欢，不同的分数不同如下表

行为	级别
单曲循环	5
喜爱	4
收藏	3
听完	2
听一半	1
没听过	0

	年少有为	十年	勇气	李白
小明	5	4	3	0
小李	5	3	1	1
小红	1	2	0	0
小王	5	3	2	5

这样就是4维空间，我们把每个人之间的向量距离求出来，当这个距离大于某个值时我们认为他们是相似用户，这样就可以把相似用户的歌曲进行推荐。

第二种：基于相似歌曲的推荐

相似用户的推荐，要求要有很大的用户量，才能推荐。但是如果项目刚开始并没有多少人用，怎么准确的推荐呢。方法是一样的，我们刚刚还是在给用户增加标签，换个思路给物品增加标签。假设我们推荐的是歌曲，那么我们可以把歌曲进行抽象，分类，或者说加标签。一个歌曲可能会有很多标签，比如这个歌曲类型是摇滚、流行、安静类等。歌曲的演唱选手等，当我们组建一个足以清楚的描述一首歌曲的特征时，我们也可以算出歌曲的向量距离，然后向量距离高出某值就做推荐

这个特征的采集也是一个庞大的工程，我们也可以这样说两首歌曲如果喜欢听的人群是差不多的，可以侧面反映出这两首歌曲是相似的。就跟基于相似用户的思路一致了。

其实推荐算法还有很多，以上只是简单的描述。有兴趣可以再深研究！