论文:《基于多重继承与信息内容的知网词语相似度计算》-2017-张波,陈宏朝等 查看
代码:https://github.com/yaleimeng/Final_word_Similarity
总体感受:
太乱了,有可能是之前没怎么接触这块。
看论文,搞不懂怎么回事,义项、义原是啥,怎么这么多定义,到头来还是不懂两个词的相似度怎么计算,比哈工大词林那篇论文复杂多了。
看代码,函数调来调去,一会这个判断一会那个判断,不明白为啥要这么干,光读词表就看着很费劲。
(程序可能还有bug,调试时有时不能正确运行)
概念
义原:义原是描述义项的最基本单位,分为事件、实体、属性、属性值、数量、数量值、次要特征、语法、动态角色和动态属性等 10 大类,2000 版的知网共有 1618 个义原。 通过上下位关系,所有的知网义原组成一个树状义原层次体系,如图 1 所示。
义项:知网中所有的义项(又称“概念”)并不是组织为树状概念结构,而是采用“义原”对义项进行描述定义。
如图 2 所示,由于一个词语可能有多个义项,每一个义项可能有多个上位节点
(抽象概念或实概念),所以体现了义项网的多重继承特征, 但这种多重继承仅表现在叶子节点(义项) 上。