第八篇：词汇语义

最新推荐文章于 2022-01-10 17:46:55 发布

flying_1314

最新推荐文章于 2022-01-10 17:46:55 发布

阅读量822

点赞数 1

分类专栏： NLP 文章标签：词义消歧词相似度词法数据库 WordNet 信息内容/路径长度相似度计算

本文链接：https://blog.csdn.net/flying_1314/article/details/117923686

版权

NLP 专栏收录该内容

27 篇文章 9 订阅

订阅专栏

词义消歧Word Sense Disambiguation

情感分析

• 词袋，kNN 分类器。训练数据：
‣ “This is a good movie.” → ☺ positive
‣ “This is a great movie.” → ☺ postive
‣ “This is a terrible film.” → ☹ negative
• “This is a wonderful film.” → ?
• 两个问题：
‣ 模型不知道“movie”和“film”是同义词。由于“film”仅出现在负面示例中，因此模型了解到它是一个负面词。
‣ “wonderful”不在词汇表中（OOV – 词汇外）。

• 直接比较单词是行不通的。如何确保我们比较词义？
• 解决方案：通过词法数据库显式添加此信息。

词语义

• 词法语义（本篇文章）
‣ 单词的含义如何相互关联。
‣ 人工构建资源：词法数据库。
• 分布式语义（下篇文章）
‣ 文字在文本中如何相互关联。
‣ 从语料库自动创建资源。

大纲

• 词法数据库
• 词相似度
• 词义消歧

词法数据库

什么是词义/意思(Meaning)？

• 他们的字典定义
‣ 但是字典定义必然是正式的/循环的也就是相关的
‣ 仅在含义已被理解时有用

• 他们与其他词的关系
‣ 也是循环的相关的，但更适合文本分析

定义

• 一个词义描述了该单词的词义的一个方面

• 如果一个词有多种含义，则它是多义词

字典中的意思

• 注释：字典给出的意义的文本定义

• 比如英语中Bank这个词：

‣ 接受存款并将资金用于借贷活动的金融机构
‣ 坡地（尤其是靠近水体的坡地）

关系中的意义

• 另一种定义含义的方法：通过查看它与其他词的关系
• Synonymy 同义词：几乎相同的含义
‣ vomit 与 throw up
‣ big 与 large
• Antonymy 反义词：相反的意思
‣ long 与 short
‣ big 与 little

• Hypernymy：is-a 关系
‣ 猫是一种动物
‣ 芒果是一种水果
• Meronymy：部分整体关系
‣ 腿是椅子的一部分
‣ 车轮是汽车的一部分

词网

• 词汇关系数据库
• 英语 WordNet 包括 ~120,000 个名词、~12,000 个动词、~21,000 个形容词、~4,000 个副词
• 平均：名词有 1.23 个意义；动词 2.16
• 支持大多数主要语言的 WordNets (www.globalwordnet.org, https://babelnet.org/)
• 免费提供英文版（可通过 NLTK 访问）