1. 打标签,根据标签推荐具有同样标签的其他内容
打标签的方法就是平台设定好很多标签,然后制作或者上传的用户在发布内容的时候选择该内容属于一个或者多个标签贴上进行发布,发布成功后该内容就属于该标签分支下无数条内容的其中一条。
假设你在某平台上浏览了一条关于产品的内容A,内容A制作上传的时候打上了产品的标签,那么你下次大概率也会浏览到其他关于具有产品标签的内容,随机抽取的内容B、C、D...
还有是在用户注册的时候选择感兴趣的标签,然后根据用户选择的标签在对应的数据库给用户推送内容。
2. 对标题进行分词,根据分的关键词进行内容匹配
比如搜索一篇文章:
搜索的标题为:“如何成为一名产品经理 。”
假设这个平台的分词规则是:设置的分词最大字数为3。
那么会被拆分成:如何成 为一名 产品经 理 (产品经理的垂直行业应该没有这种词)
不满足条件在退为最大字数为2。
如何 成为 一名 产品 经理 (这些词在产品经理的垂直行业存在这种词汇)
那么就会按照字数为2的词汇来匹配相关内容 匹配出来的内容就有可能会是以下标题:
如何成为一名产品经理
如何成为产品经理
成为产品经理
如何成为经理 ......
3. 通过数学逻辑进行公式计算,相似度计算。
相似度计算主要有三个经典算法:
1、余弦定理相似性度量
通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性,0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1,从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。
两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。
在比较过程中,向量的规模大小不予考虑,仅仅考虑到向量的指向方向。余弦相似度通常用于两个向量的夹角小于90°之内,因此余弦相似度的值为0到1之间。
2、欧氏距离相似性度量
与余弦定理通过方向度量相似度不同,欧氏距离是通过计算样本实际距离在度量相似度的,二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离。
3、皮尔逊相关系数 两个变量之间的相关系数越高,从一个变量去预测另一个变量的精确度就越高,这是因为相关系数越高,就意味着这两个变量的共变部分越多,所以从其中一个变量的变化就可越多地获知另一个变量的变化。
如果两个变量之间的相关系数为1或-1,那么你完全可由变量X去获知变量Y的值。当相关系数为0时,X和Y两变量无关系;当相关系数在0.00与1.00之间,X、Y正相关关系;当相关系数在-1.00与0.00之间,X、Y负相关关系。
由此可知,相关系数的绝对值越大,相关性越强,相关系数越接近于1和-1,相关度越强,相关系数越接近于0,相关度越弱。
电商的推荐大多数是根绝用户的行为数据,例如:年龄、消费水平、消费频率等已知条件,经过公式的算法计算出来的。如果两个用户计算出来的值越接近,就说明两个用户购物喜好越相似,即可以把A 喜欢的物品推进给B。