哈工大《同义词词林》共享版的若干改进

本文介绍了对《同义词词林》的改进,包括扩展词典、建立词频和停用词文件。通过对原始词典的分析和哈工大扩展版的使用,增加了层次编码、关系表示和适应Resnik方法的词频统计,以提升其在自然语言处理任务中的适用性。
摘要由CSDN通过智能技术生成

1 改进《同义词词林》共享版

在实验中,由于客观条件的限制,我们选择的语义词典是《同义词词林》。《同义词词林》是梅家驹等人[1]1983年编纂而成,初衷是希望提供较多的同义词语,对创作和翻译工作有所帮助。但在我们发现,这本词典中不仅包括了一个词语的同义词,也包含了一定数量的同类词,即广义的相关词,可以参考表1.1中的词条示例。经此分析之后,我们认为它完全可以作为语义词典用到自然语言处理任务中。同时,《同义词词林》与WordNet的格式有若干相似之处,即都是用一个同义词集合来表示一个意思,所以可以引入WordNet中的各种语义度量方法,在《同义词词林》中比较这些方法。

 

1.1 词典结构示例

Ae07 农民 牧民 渔民

农民 农夫 农人 农 庄稼人 庄稼汉 田父 泥腿子 农家 耕夫 老乡

小农 个体农民

佃农 佃户

上中农 富裕中农

* * 菜农 棉农 茶农 烟农 蔗农 花农 药农 林农

雇农 贫农 下中农 中农 上中农 富农

自耕农 半自耕农 集体农民 人民公社社员

        1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明

 

1.2   《同义词词林》扩展前后比较

词典特征

扩展前

扩展后

词条总数

53895

77343

大类数

12

12

中类数

94

97

小类数

1428

1400

层次数

3

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 28
    评论
评论 28
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值