浅析文本相似度

最新推荐文章于 2024-06-13 20:56:20 发布

Mrek_fast

最新推荐文章于 2024-06-13 20:56:20 发布

阅读量1.7k

点赞数

本文链接：https://blog.csdn.net/Mrek_fast/article/details/88078828

版权

本文探讨了中文文本相似度的实现原理，包括中文分词、停用词处理、词频统计、分词编码和余弦相似度计算。通过实例分析了jieba分词库的使用，并介绍了编码转换在文本处理中的重要性。

摘要由CSDN通过智能技术生成

- 前言

  在生活中，信息检索、文档复制检测等领域都应用到“文本相似度”。可能有人觉得文本是文字，其实不尽然，文本相似度的应用更广，除了文字的匹配，还可以是图片，音频等，因为他们的实质都是在计算机中都是以二进制的方式存在的。
  相似度，实质就是计算个体间相程度。什么是个体？对于语句，个体就是语句，对于图片，个体就是图片。

- 实现原理：

 基于词频：统计词频，构建词频特征向量，利用特征向量余弦夹角来表示余弦相似度。

基于词频的文本相似度
文本分词
去停用词
统计词频
构建词频向量
根据词频向量计算相似度

中文分词：

词是最小的能够独立活动的有意义的语言成分，英文单词之间以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此中文一定要分词的。
这里有一篇对中文分词原理解析的文章，我认为写的很好，给大家分享一下：https://www.cnblogs.com/BaiYiShaoNian/p/5071802.html
举个例子：
在英文中只要一个单词student，我们就知道是学生的意思，而中文中要用学生二字来表达。

停用词

停用词包括数字、标点符号和使用频率特别高的词，如代词、语气助词、副词、介词、连接词等。像我、我们、你、你们、总之之类的。
停用词不代表实际意义，所以不需要构建词频向量。

最低0.47元/天解锁文章

Mrek_fast

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
浅析文本相似度

- 前言在生活中，信息检索、文档复制检测等领域都应用到“文本相似度”。可能有人觉得文本是文字，其实不尽然，文本相似度的应用更广，除了文字的匹配，还可以是图片，音频等，因为他们的实质都是在计算机中都是以二进制的方式存在的。相似度，实质就是计算个体间相程度。什么是个体？对于语句，个体就是语句，对于图片，个体就是图片。- 实现原理：基于词频：统计词频，构建词频特征向量，利用特征向量余...
复制链接

扫一扫