NLP数据预处理——同义词替换程序

最新推荐文章于 2025-03-16 08:00:00 发布

hfutdog

最新推荐文章于 2025-03-16 08:00:00 发布

阅读量2.7w

点赞数 12

分类专栏：自然语言处理NLP python 文章标签： Python NLP 数据预处理同义词替换相似度计算

本文链接：https://blog.csdn.net/hfutdog/article/details/81107170

版权

本文介绍了在自然语言处理的数据预处理阶段如何进行同义词替换，以提高相似度计算的准确性。文章分享了一个利用pyltp进行分词和基于扩展版哈工大同义词词林的替换程序，旨在帮助NLP学习者进行数据预处理。程序测试结果显示，输入为str类型的句子，输出为包含替换后词的list形式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自然语言数据预处理中经常会涉及到同义词替换，比如计算两个句子的相似度中，把一个词的两个同义词利用同义词替换技术转换为同一个词，那么就提高了相似度计算的可靠性。学习自然语言处理的同学肯定都会做到数据预处理的工作，下面分享我最近写的一个程序，希望能为从事同样工作的同学提供那么一点帮助，也希望自己的程序能够得到指点。

程序中设计到分词技术和同义词表，分词采用了哈工大的pyltp，其官方文档链接为http://pyltp.readthedocs.io/zh_CN/latest/。同义词表是利用哈工大的同义词词林（扩展版）进行预处理保留每个词的前两项得来的，原版下载链接为https://www.ltp-cloud.com/download/。

我采用的同义词词表是下面这种结构：

人 士
人类 生人
人手 人员
劳力 劳动力
匹夫 个人
家伙 东西
者 手
每人 各人
该人 此人
人民 民

下面是同义词替换程序（注释比较详细，这里不再赘述程序具体实现方式）：

from pyltp import Segmentor


class SynonymsReplacer:
    def __init__(self, synonyms_file_path, cws_model_path):
        self.synonyms = self.load_synonyms(synonyms_file_path)
        self.segmentor &