(6) 中文文本相似度计算

最新推荐文章于 2024-05-22 11:20:16 发布

禅与计算机程序设计艺术

最新推荐文章于 2024-05-22 11:20:16 发布

阅读量1k

点赞数 2

分类专栏：大数据AI人工智能深度学习实战文章标签：自然语言处理人工智能语言模型编程实践开发语言架构设计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/universsky2015/article/details/132383468

版权

大数据AI人工智能同时被 2 个专栏收录

该专栏为热销专栏榜第33名

14290 篇文章 536 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

深度学习实战

3603 篇文章 2 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

作者：禅与计算机程序设计艺术

1.简介

中文文本相似度计算一直是一个重要的研究领域，是自然语言处理（NLP）中一个重要研究方向。传统上，文本相似性计算方法分为基于词、句子或者文档的模型计算方法，如向量空间模型、编辑距离、余弦相似性等；以及基于概率统计模型的方法，如最大熵模型、条件随机场模型、隐马尔可夫模型等。近年来，随着神经网络技术的火热，深度学习在文本相似度计算方面的应用也越来越广泛，取得了不少成果。但是，对于中文文本的相似度计算来说，传统的技术还存在诸多局限性。比如基于词、句子或者文档模型计算方法往往无法很好地捕捉到不同字之间微妙的差异，而最近提出的神经网络模型则需要大规模数据才能训练成功。因此，如何有效地计算中文文本的相似度成为一个重要课题。本篇博文主要讨论中文文本相似度计算的相关概念和方法，并通过一些代码示例来阐述其原理和实现方式，希望对读者有所帮助。

2.基本概念术语说明

2.1 编辑距离

编辑距离（Edit distance）用来衡量两个字符串之间的“距离”，它表示从一个字符串转变成另一个字符串所需的最少操作次数。一般来说，编辑距离可以分为三种类型：

替换：指将一个字符替换成另一个字符。
插入：指在第一个字符串中插入一个新的字符。
删除：指删除第二个字符串中的某个字符。

举例说明，假设有一个字符串s1=“kitten”和另一个字符串s2=“sitting”，那么它们的编辑距离就是3:

k+i+t+e+n     k+i+t+

了解本专栏

超级会员免费看

禅与计算机程序设计艺术

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
22
评论
(6) 中文文本相似度计算

作者：禅与计算机程序设计艺术 1.简介中文文本相似度计算一直是一个重要的研究领域，是自然语言处理（NLP）中一个重要研究方向。传统上，文本相似性计算方法分为基于词、句子或者文档的模型计算方法，如向量空间模型、编辑距离、余弦相似性等；以及基于概率统计模型的方法，如最大熵模型、条件随机场模型、隐马尔可夫模
复制链接

扫一扫

专栏目录

禅与计算机程序设计艺术

CSDN认证博客专家 CSDN认证企业博客

码龄9年

人工智能领域优质创作者

9万+: 原创

428: 周排名

-: 总排名

11420万+: 访问

: 等级

206万+: 积分

5万+: 粉丝

98万+: 获赞

12万+: 评论

97万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

MySQL与Electron的整合
super hooper: 这是搬运都没搬运明白？好好搞一下排版吧
从零开始大模型开发与微调：使用其他预训练参数来生成PyTorch 2.0 词嵌入矩阵 Word2Vec
禅与计算机程序设计艺术: 引用「连续词袋模型（CBOW）和Skip-gram」 # 举个简单易懂的例子说明：连续词袋模型（CBOW）和Skip-gram 好的，让我们通过一个简单的例子来说明连续词袋模型（CBOW）和Skip-gram模型的区别。假设我们有一个句子：“我喜欢喝茶和咖啡”。 ### 连续词袋模型（CBOW）在CBOW模型中，我们会选择一个窗口大小，比如说2。这意味着我们会使用每个词的前后两个词作为上下文来预测当前词。例如，要预测词“喜欢”，我们会使用“我”和“喝”作为输入。CBOW模型会尝试最大化给定上下文“我”和“喝”时，目标词为“喜欢”的概率。 ### Skip-gram模型而在Skip-gram模型中，我们会从句子中选择一个词（比如“喝”），然后尝试预测这个词周围的所有词。例如，对于词“喝”，我们可能会尝试预测它前后各两个词，即“我”、“喜欢”、“茶”和“和”。Skip-gram模型会为每个词汇生成多个上下文词的预测，这样即使是稀有词汇，也能有足够的训练数据来学习一个好的词嵌入。总结一下： - **CBOW**：使用上下文词来预测目标词（“我”和“喝”预测“喜欢”）。 - **Skip-gram**：使用目标词来预测上下文词（“喝”预测“我”、“喜欢”、“茶”和“和”）。这两种模型都是为了让相似的词在向量空间中的表示接近，从而能够捕捉到词与词之间的语义关系。
从零开始大模型开发与微调：使用其他预训练参数来生成PyTorch 2.0 词嵌入矩阵 Word2Vec
禅与计算机程序设计艺术: 引用「连续词袋模型（CBOW）和Skip-gram」 # 从零开始大模型开发与微调：使用其他预训练参数来生成PyTorch 2.0 词嵌入矩阵 Word2Vec-CSDN博客连续词袋模型（CBOW）和Skip-gram是Word2Vec模型的两种不同的实现方式，用于学习词汇的向量表示（词嵌入）。 - **连续词袋模型（CBOW）**：CBOW模型通过词汇的上下文词来预测目标词。具体来说，它会使用目标词的周围词（通常是一个固定大小的窗口内的词）作为输入，通过一个简单的神经网络来预测中心的目标词。这种方法类似于语言模型，但是它的目标是最大化上下文词给定的目标词的概率。 - **Skip-gram模型**：与CBOW相反，Skip-gram模型使用目标词来预测其周围的上下文词。它会为每个词汇预测它们可能出现的上下文词，通常这些上下文词位于目标词的前后固定距离内。Skip-gram模型在处理稀有词汇时表现更好，因为它能够为每个词汇生成多个上下文词的预测。两种模型都旨在通过训练过程学习到词汇之间的语义关系，使得语义相近的词汇在向量空间中的距离也相近。Word2Vec模型通常使用负采样（Negative Sampling）或层次软最大化（Hierarchical Softmax）等技术来提高训练效率。
【大数据OLAP引擎】图文详解 Apache Doris 架构
2401_84435494: 大佬您好，我想向您请教一下，如果一个新手小白，怎样的学习路径才能短时间内了解Doris，并达到根据自身业务去对Doris的搭建架构给出建议呢
网络流量分析：利用马氏距离识别异常行为
只是、追念ζ: 这个网络流量不应该是个时间序列应该是一维的吧

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

2023年48316篇

目录

评论 22

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

禅与计算机程序设计艺术 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。