文章来源于:https://zhuanlan.zhihu.com/p/88938220
引言
在自然语言处理中,我们经常需要判定两个东西是否相似。
比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。
在问答系统中,比如说人工客服,我们需要提前准备好问题和一些答案,让用户输入的问题与题库中的问题进行相似度的比较,最后输出答案。
在推荐系统中,我们需要提取一个用户的所有物品,在根据这个物品找到对应的用户群,比较两个用户之间的相似性,在进行相应的推荐(协同过滤)。
在对语料进行预处理的时候,我们需要给予文本的相似度,把相似度高的重复主题过滤掉。
总之,相似度是一种非常有用的工具,可以帮助我们解决很多问题。
任务目标
一般来说,是比较两个物体(商品,文本。。)之间的相似度。这里的相似度是一个抽象的值,它可以抽象成估计的百分比。
在推荐工程中,计算相似度是为了给用户推送一定量的物品。即把所有的相似度排序,然后选出最高的那几个物品。
人是很容易判断出物品的相似度的,人们会在心里有一个考量。那么程序如何判断呢?
这里呢?
如果是文本分析,它首先就要用到分词技术,然后去掉不必要的词(语气词,连接词。。)。然后对词给一个抽象的量表