NLP-关系抽取方法

最新推荐文章于 2024-04-16 10:05:23 发布

Swayzzu

最新推荐文章于 2024-04-16 10:05:23 发布

阅读量1.8k

点赞数

分类专栏： NLP 文章标签：自然语言处理人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Swayzzu/article/details/121493544

版权

NLP 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

目录

一、基于规则

二、监督学习

2.使用分类模型训练

三、半监督

2.bootstrap(snowball)

一、基于规则

目前基于规则是主流并且见效快的方法。

1.举例

提取具体的水果名字

规则：apple is a fruit, fruit such as apple, fruit including banana

以上的is a, such as, including都可以帮助我们找到水果这一类下面的具体的水果名字，像这样的规则我们可以定义非常多，只要文章中出现了规则，那么就可以把对应的数据放到库中。

比如文章中出现：...... apple is a fruit.....

先用实体识别分类器把实体识别出来，发现中间正好是is a ，那么把这两个实体放到数据表里。

中间可能会有不同类型的内容，因为我们定的只是规则，而没有其他条件过滤掉比如“car”，因此需要在规则集上面，定义规则的类别。

2.优缺点

基于规则的方法的优点：准确、不需要训练数据

基于规则的方法的缺点：召回率低（人能想到的关系少），人力成本高，规则本身难设计

二、监督学习

1.准备工作

①定义关系类型

②定义实体类型

③训练数据准备：实体的类型标记、实体之间的关系标记

④特征工程，可以使用：

bag-of-words

词性

实体类别

stemming

位置相关的信息特征：两个实体间包含了多少个单词？这句话在本文里的位置？

句法分析相关特征：两个词节点之间最短路径（使用树结构画出来语法的分析，可能需要图算法去提取特征）

依存文法相关特征：最短路径，是否相互依存等

据说上面的句法分析和依存文法分析效果一般。

2.使用分类模型训练

由于在分类的类别中，除了我们需要的分类，还可能会有一类“不属于任何类别”，因此我们可以将训练分为两部分，先使用一个简单的二分类器，把数据分为有类别和无类别，之后再进行分类。

三、半监督

1.bootstrap

首先在库中准备一个表格，包含几条真实的，正确的样本记录。

①基于样本，生成规则：

给定文本，根据库中的数据，如果匹配到了，那么文本中，两个实体中间的内容就可以作为规则，比如：

x写了y

y是由x写的

②生成三元组

有了上面生成的规则之后，给定新的文章，扫描是否有存储的规则，如果匹配上了对应的规则，那么就把规则左右的实体，填入到记录表中，作为新的记录。

③重复上两步

使用新的记录继续扫描文章，生成新的规则，使用新的规则，扫描文章，生成新的记录。

④bootstrap的关键缺点：

错误累积：当开头出现误差的时候，后面由于自动去生成，会慢慢误差越来越大。

于是提出了改进版：snowball

2.bootstrap(snowball)

见下一篇文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Swayzzu CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

31万+: 周排名

50万+: 总排名

12万+: 访问

: 等级

1143: 积分

29: 粉丝

60: 获赞

37: 评论

424: 收藏

私信

关注

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

PyTorch自建数据集+可视化结果
Swayzzu: 你调试一下，打断点到这个位置看看，意思是这个地方应该是一个可迭代的对象（比如list类型之类的），但发现这个对象是个None，没法迭代
PyTorch自建数据集+可视化结果
学习成长记: 我在进行数据集导入时，出现错误：TypeError Traceback (most recent call last) Cell In[7], line 1 ----> 1 train_dataset = InfrasoundDataset('dataset',256, 'train') 2 val_dataset = InfrasoundDataset('dataset',256, 'val') 3 test_dataset = InfrasoundDataset('dataset',256, 'test') Cell In[6], line 15, in InfrasoundDataset.__init__(self, root, resize, mode) 12 self.name2label[name] = len(self.name2label.keys()) 13 # print(self.name2label) 14 # 加载或创建CSV文件并存储数据 ---> 15 self.images, self.labels = self.load_csv('Raw_TIFs.csv') 17 # 取train, val, test数据集 18 if mode=='train': TypeError: cannot unpack non-iterable NoneType object。请问这个是为什么？
KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。