文本相似度算法：文本向量化+距离公式

最新推荐文章于 2020-11-23 23:01:05 发布

==樛木==

最新推荐文章于 2020-11-23 23:01:05 发布

阅读量2.7k

点赞数

分类专栏：深度学习之个人总结文章标签：文本相似度文本向量化余弦相似度词袋模型 TD-IDF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38493025/article/details/88996317

版权

1. 文本向量化

1.1 词袋模型

词袋模型，顾名思义，就是将文本视为一个 “装满词的袋子” ，袋子里的词语是随便摆放的，没有顺序和语义之分。

1.1.1 词袋模型的步骤

第一步：构造词典
根据语料库，把所有的词都提取出来，编上序号
第二步：独热编码，D维向量
记词典大小为D，那么每个文章就是一个D维向量：每个位置上的数字表示对应编号的词在该文章中出现的次数。

1.1.2 词袋模型的缺点

只统计词语是否出现或者词频，会被无意义的词汇所影响
解决：文本预处理（a.去除停用词；b.文字、字母、标点符号统一；c.利用TF-IDF去除不重要的词）
无法识别语义层面的信息
解决：基于深度学习的文本表示（词向量、句向量等）
无法关注词语之间的顺序关系
解决：深度学习

1.2 TF-IDF

TF-IDF是一种统计方法，用以评估某一字词对于语料库中的一篇文章的重要程度。其算法简单快速，结果也比较符合实际情况。

1.2.1 TF-IDF的步骤

第一步：统计词频TF
统计每个词在文本中出现的次数，出现的越频繁，那么就越可能是这个文章的关键词。

 词频TF = 某个词在文章中出现的次

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
文本相似度算法：文本向量化+距离公式

1. 文本向量化1.1 词袋模型词袋模型，顾名思义，就是将文本视为一个 “装满词的袋子” ，袋子里的词语是随便摆放的，没有顺序和语义之分。1.1.1 词袋模型的步骤第一步：构造词典根据语料库，把所有的词都提取出来，编上序号第二步：独热编码，D维向量记词典大小为D，那么每个文章就是一个D维向量：每个位置上的数字表示对应编号的词在该文章中出现的次数。1.1.2 词袋模型的缺点只...
复制链接

扫一扫

专栏目录

==樛木== CSDN认证博客专家 CSDN认证企业博客

码龄7年

98: 原创

5万+: 周排名

227万+: 总排名

23万+: 访问

: 等级

2619: 积分

66: 粉丝

84: 获赞

76: 评论

342: 收藏

私信

关注

分类专栏

最新评论

【bug解决】No OpKernel was registered to support Op 'CudnnRNN' with these attrs.
ShAn DiAn: 哥，你现在解决了吗，求帮助
【bug解决】You should consider upgrading via the 'pip install --upgrade pip' command.
Reconciler: 非常感谢！一下就装上了！!
【ML小结1】ML入门
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)使用标准目录。
IDEA连接Spark集群执行Scala程序
一个不知道取什么昵称的网友: 大佬牛批
【bug解决】No OpKernel was registered to support Op 'CudnnRNN' with these attrs.
不二651: 请问现在搞清楚了吗？因为我用tensorflow-gpu也还是出现这个问题，不知道怎么解决

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。