自然语言处理之近义词包 Synonyms

最新推荐文章于 2023-05-26 17:01:53 发布

sunnychou0330

最新推荐文章于 2023-05-26 17:01:53 发布

阅读量2k

点赞数 1

分类专栏：文本处理

文本处理专栏收录该内容

10 篇文章

订阅专栏

本文介绍了Synonyms中文近义词工具包的起源及其应用场景。通过使用word2vec模型，该工具包能够训练出高质量的同义词库，有效提升信息检索系统的性能。文章还涵盖了N-gram模型、word2vec原理等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一直想用这些，收藏起来！

原文：https://blog.csdn.net/valada/article/details/79909943

目前很缺乏质量好的中文近义词库，于是便考虑使用 word2vec 训练一个高质量的同义词库将“非标准表述”映射到“标准表述”，这就是 Synonyms 的起源。在经典的信息检索系统中，相似度的计算是基于匹配的，而且是 Query 经过分词后与文档库的严格的匹配，这种就缺少了利用词汇之间的“关系”。而 word2vec 使用大量数据，利用上下文信息进行训练，将词汇映射到低维空间，产生了这种“关系”，这种“关系”是基于距离的，有了这种“关系”，就可以进一步利用词汇之间的距离进行检索。所以，在算法层面上，检索更是基于了“距离”而非“匹配”，基于“语义”而非“形式”。

本话题将分享 Github 开源项目 - Synonyms 中文近义词工具包，主要内容如下：

应用场景
现有的近义词包
N-gram 模型介绍
word2vec 原理
使用的开放数据集
训练过程
计算句子相似度公式
待改进的地方

阅读全文: http://gitbook.cn/gitchat/activity/5a563545a8b23d387720ccd5

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。