Synonyms-Chinese Synonyms for Natural Language Processing and Understanding

本文介绍了如何使用word2vec和维基百科中文语料库构建同义词库,用于自然语言处理中的标准关键词匹配。通过下载维基语料、繁简转换、分词,并使用gensim训练词向量,最终实现同义词的查找。同义词库可用于提高搜索准确率、推荐系统和语义相似度计算。
摘要由CSDN通过智能技术生成

Synonyms

Chinese Synonyms for Natural Language Processing and Understanding.


最近需要做一个基于知识图谱的检索,但是因为知识图谱中存储的都是标准关键词,所以需要对用户的输入进行标准关键词的匹配。
于是采用了基于同义词库的方式,将《非标准表述》 映射到 《标准表述》,这就是Synonyms的起源。

下面我们来仔细聊聊Synonyms。


  • 首先需要语料,我们采用了开放的大规模中文语料——维基百科中文语料。

    (1)下载维基百科中文语料。
    (2)繁简转换。
    (3)分词。

    具体操作访问wikidata-corpus

  • 使用gensim自带的word2vec包进行词向量的训练。
    (1)下载gensim。
    (2)输入分词之后的维基语料进行词向量训练。
    (3)测试训练好的词的近义词。

    具体操作访问
    wikidata-corpus

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值