【Natural Language Processing】词汇相似度(Word similarity)计算

最新推荐文章于 2024-07-28 00:47:29 发布

Lawe

最新推荐文章于 2024-07-28 00:47:29 发布

阅读量5.9k

点赞数 2

分类专栏： Natural Language Processing 文章标签： python 词汇相似度

本文链接：https://blog.csdn.net/LAW_130625/article/details/70175530

版权

本文介绍了基于WordSimilarity-353的词汇相似度计算方法，包括使用WordNet的最短路径法以及通过gensim库利用GoogleNews预训练的词向量模型计算相似度。

摘要由CSDN通过智能技术生成

以下词汇相似度计算方法的实现是基于WordSimilarity-353进行，即根据相关方法计算得到给定词汇的相似度后，再使用斯皮尔曼等级相关判定来计算所得的词汇相似度与已人工标注好的相似度之间的相关性。

一、基于语义词典的方法

常用的语义词典是WordNet，一般直接在Python里面使用，即通过pip install nltk来安装NLTK之后，再下载nltk-data放在相应文件夹即可(官方推荐的方法下载特别慢)，以下实现是根据Wu-Palmer 提出的最短路径计算两者的path_similarity(具体可以查看：http://nltk.googlecode.com/svn/trunk/doc/howto/wordnet.html。)，并且取其中最大的词汇相似度最为结果。

# -*- coding: utf-8 -*-

from nltk.corpus import wordnet as wn
import pandas as pd
import numpy as np
from scipy import stats

def WordSimibywup_

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lawe

关注关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

自然语言处理(Natural Language Processing) 原理与代码实例讲解

程序员光剑

06-06

1224

自然语言处理(Natural Language Processing) - 原理与代码实例讲解 1.背景介绍 1.1 什么是自然语言处理自然语言处理(Natural Langua

Transformer大模型实战计算句子的相似度

程序员光剑

07-26

305

在自然语言处理领域中,计算句子相似度是一项非常重要的基础任务。它被广泛应用于问答系统、文本聚类、文本去重、机器翻译评测等多个场景。传统的方法通常是基于词袋模型或者n-gram,计算两个句子之间的相似度得分。但这些方法忽视了词序信息,也无法很好地捕捉语义级别的相似性。近年来,基于深度学习的语义表示模型取得了长足进展,尤其是Transformer模型的出现,使得我们能够更好地对句子进行语义建模,从而计算更加准确的句子相似度。

1 条评论您还未登录，请先登录后发表或查看评论

05-25

LRita的专栏

04-14

2万+

词汇相似度计算

Python情感分析、分词、关键词提取、相似度计算

svygh123的专栏

07-17

372

Snownlp 使用起来相对简单，适合初学者或者需要快速进行中文文本处理的项目。不过，相比于更为成熟和全面的NLP库（如jieba、THUCTC、HanLP等），Snownlp可能在某些高级特性和准确性上有所不足。用户应根据具体需求选择合适的工具。Snownlp 是一个简单的中文文本处理库，它主要用于处理和分析中文文本数据。该库支持诸如情感分析、分词、关键词提取等多种自然语言处理任务。Snownlp 的设计目标是尽可能简化这些任务的实现过程，使开发者能够快速进行中文文本的数据预处理和分析。

出个题目大家玩玩 : 比较14万单词的相似度

首席技术执行官CTO(Chief Technology Officer)|技术总监--邓斌博客

01-17

2873

题目:比较14万单词的相似度输入:14万单词表,table( ID,word)输出:给出单词关系表( ID1,ID2,相似度),相似度要大于60%例如:aoc和aoe的相似度为(百分之):67abc和abcd的相似度为75实验用三万单词库下载:http://www.dullwolf.cn/word/word.rar14万单词库已经有了,加工后和3万的一起打包再给大家下载.3万的适合

计算两个词语的相似度

10-08

计算两个词语的相似度,例如gem和jewel，适用于wordnet中的词语

Levenshtein Distance算法java实现，英文单词相似度

曹栋的专栏

09-19

5431

昨儿突发奇想，想做一个关于英文单词按“形近词”分组的app，这个app最关键的就是这个“形近词”判断，经过思考和查资料，开始有了些眉目，看到了visionfans写的博客使用Matlab实现英文单词的"形近词"查找（http://blog.csdn.net/visionfans/article/details/6618652）就参照他的把算法用java实现了一下，效果出来了，但是很担心整个算法的效率问题，刚刚接触，对算法效率了解的甚少，还请大牛指点。

用词袋模型计算文本相似度

最新发布

程序员光剑

07-28

141

用词袋模型计算文本相似度 作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词：文本相似度，词袋模型，机器学习，自然语言处理，信息检索 1. 背景介绍

bert文本相似度计算_使用bert和其他模型计算文档相似度

weixin_26739165的博客

10-10

7849

bert文本相似度计算入门(Getting Started) Introduction介绍 Document similarities is one of the most crucial problems of NLP. Finding similarity across documents is used in several domains such as recommending simi...

WordNet Similarity 词语相似度

05-29

英文词相似度评分数据集.rar

08-02

英文词相似度数据，包含了常见的数据集，同时对不同数据集评分区间不统一的问题，提供了将相似度评分统一到[0,1]区间的ws.txt，该文件包含所有词相似度数据集中的词对。

基于单词相似度的文本聚类

03-01

基于单词相似度的文本聚类一些业内简单的概述

英文文本相似性计算

wyj95anan的博客

06-07

1175

本文使用python的gensim通过tf-idf计算文本相似性。 相似度计算部分参考：https://www.jianshu.com/p/edf666d3995f 1）导入相关包 import jieba.posseg as pseg import codecs from gensim import corpora, models, similarities import pandas as pd import re import string from nltk.corpus import stopwo

自然语言处理（二）：余弦算法计算词汇相似度

悠哉的咸鱼的博客

08-03

9813

预备知识：欧式距离与余弦相似度计算方法 1、欧式距离随机取出两个词向量A和B,A的词向量表示为[A1,A2,A3…An]，B的词向量表示为[B1,B2,B3…Bn]。对于词向量A和B,其欧式距离计算公式如下: 2、余弦相似度 对于词向量A和B,其余弦相似度计算公式如下: 词向量的内在联系词向量可以表示单词间的内在联系，即两个单词的词向量通过计算可以得出其关联程度，词向量相似度计算公式主要有:欧氏距离、余弦相似度、Jaccard距离、编辑距离等几种，本文主要介绍欧式距离与余弦相似度。首先我们提出两个

词向量相似性（Word Similarity）、类比任务（Word Analogy）实验数据

没有进步就是退步

01-17

4523

词向量验证的方法通常有: 词的相似性任务（Word Similarity）以及词的类比任务 (Word Analogy)。词的相似性任务-Word Similarity 常用的英文数据集：WordSim-353 、MEN、SCWS 常用的中文数据集：wordsim-240、wordsim-297 词的类比任务-Word Analogy 常用的中文数据集：Chen 2015年构造的评测文...

WordSimilarity 词汇相似度计算

Garfy's Blog

03-30

7714

Similar Word

Roly

03-13

1179

Word2Vec 的词汇语义相似度计算python代码

07-12

要计算词汇的语义相似度，可以使用Word2Vec模型。下面是一个示例的Python代码，使用gensim库来加载Word2Vec模型并计算词汇的相似度： ```python from gensim.models import Word2Vec # 加载预训练的Word2Vec模型 ...