词汇挖掘与实体识别（未完）

最新推荐文章于 2024-03-18 15:18:33 发布

约定写代码

最新推荐文章于 2024-03-18 15:18:33 发布

阅读量636

点赞数

分类专栏：知识图谱笔记文章标签：知识图谱关键词提取同义词查找

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flying_all/article/details/114915028

版权

知识图谱笔记专栏收录该内容

8 篇文章 3 订阅

订阅专栏

文章目录

1 概述
2 词汇挖掘
3 实体识别(NER)
- 3.1 基于概率图模型
- 3.2 基于深度学习

1 概述

实体：是文本中的一些词汇或者短语。例如清华大学、李白。
但有些词汇不是实体。例如鲜艳的，守株待兔。
具体措施：挖掘尽可能多高质量的词汇，筛选目标知识图谱中的实体。

2 词汇挖掘

2.1 关键词提取

2.1.1 基于特征统计

词频
TF-IDF
位置特征
词跨度
词的固定属性：词长、词性、是否全部大小写等

2.1.2 基于主题模型

主题模型的核心假设是：存在隐含变量（文本主题），决定文本中词汇的出现情况。获取每个主题下的高频词作为关键词。
在这里插入图片描述

2.1.3 Text-Rank算法提取

基于PageRank
在这里插入图片描述

在文本中词与相邻词之间，可以类比于有跳转关系的2个网页。

改进：直接设窗口半径，改进到从句法分析的角度定义链接关系。

2.2 同义词挖掘

2.2.1 同义词类型

1 不同国家的互译（自行车、bike）
2 相同含义的词（花朵、花儿）
3 不同称呼（周董、周杰伦；番茄、西红柿；上海、沪）

2.2.2 挖掘

1 字典：wordnet、汉语大词典、大词林（特点：质量高、不完整）
2 百科
3 基于模式匹配
X又称Y；X(Y);X简称Y，X，亦称Y；X俗称Y等等
特点：准确率高，召回率低（不能找到的同义词很多）
4 基于bootstrapping（自举法）
模式匹配，发现同义词对；
根据同义词对，发现更多的模式。
半监督模式，可以自己学习到一些模式。

2.3 缩略词挖掘

缩略词可以说是一种特殊的同义词。
同义词的挖掘方式也可以用于缩略词挖掘，但更多的还是要依靠人工。
缩略词有表音的：Doctor 与Dr

有表意的：北京大学与北大；安全理事会与安理会。

2.4 新词挖掘

新词是指词库中不存在的词，但还可能是一个词的词。
挖掘方法是先对文本进行分词。分词后根据词之间的凝固度，还有词左右熵来确定一个词是不是新词。
首先新词，可能是原来两个词，三个词…组成一个新词。
第二，看下候选词的凝固度。以两个词为例。如果x和y总是同时出现，x与别的词一起出现的概率低，y与别的词出现概率低，那大概率x和y可以组成一个新词。
$PMI(x,y)=log\dfrac{P(x,y)}{P(x)*P(y)}$
第三，看下候选词左边相邻词，右边相邻词的熵。表示了左右相邻词的丰富程度。越丰富表名候选词越可能成为一个词。
$P(x,y)=-\sum_{w\in W}P(w)logP(w)$ ，W是所有x,y组合左右相邻词的集合。

3 实体识别(NER)

3.1 基于概率图模型

3.2 基于深度学习

约定写代码

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。