NLP-bootstrap snowball

最新推荐文章于 2022-01-17 11:13:00 发布

Swayzzu

最新推荐文章于 2022-01-17 11:13:00 发布

阅读量312

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Swayzzu/article/details/121507539

版权

五元组规则层次聚类相似度计算模板评估信息检索

关键词由CSDN通过智能技术生成

NLP 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

目录

1.生成规则模板

①相似度计算

② 层次聚类

3.模板评估+过滤

4.记录评估+过滤

一、概述

相对于原来的bootstrap，表达方式由原来的三元组（实体1，规则，实体2），变成了五元组（左，实体1，中，实体2，右），每次循环增加了对规则的评估及过滤，以及对记录的准确率评估及过滤。

二、流程

在开始循环之前，仍然有seed tuple，一些准备好的正确记录。

1.生成规则模板

定义长度=2，那么就是选择实体左边的两个词+右边的两个词，把规则表示成五元组：

（左，实体1，中，实体2，右）

其中，左中右这三个部分，都是向量，可以使用one-hot，长度为词库长度。

①相似度计算

生成的模板可能有多种多样，我们需要通过相似度的计算，将相似度高的模板归为一类。计算过程中，如果实体类型不一样，那么相似度为0。

直接用内积即可，不需要除以模长，因为我们在用向量表示规则的时候，已经进行了一种归一化了，表示成了长度为1的向量。如下图。

相似度计算的时候，对“左中右”每一个部分增加一个权重，并保证权重之和为1，通常，中间的部分权重最大。

② 层次聚类

设定一个阈值，比如0.7，只要两个规则模板的相似度＞0.7，就把这两个分为一类，这样可以将所有模板分成几大类，然后对聚类好的模板进行平均，生成新模板。

2.生成记录

对文本进行扫描，出现了两个实体之后，挨个去和已有的规则计算相似度，只要有一个大于相似度阈值，比如0.7，那么就把实体放进表格里。计算相似度方式和上面一样。

3.模板评估+过滤

由于我们在生成记录的时候，使用的是我们归类好的所有模板，因此，可以将所有模板生成的记录作为ground truth，看看如果只使用一个模板，在同样的文本里，只按照这个模板来扫描，生成记录。看看能生成多少，然后二者相除，即可得到该模板的分数。然后给模板分数设定一个阈值，比如0.5，小于这个阈值的就删除。

4.记录评估+过滤

现在我们有已知的规则模板的分数了，生成的记录，有的是一个模板扫描文本后生成的，有的是多个模板扫描文本后生成的，因此可以通过以下方式计算记录的分数：

其中，con(Pi)就是第i个规则模板的分数。

$1-\prod_{i=1}^{k}(1-con(P_i))$

同样的，我们设定一个阈值，比如0.7，只要分数小于0.7的记录，我们就删除。

重复以上四步即可。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Swayzzu CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

31万+: 周排名

95万+: 总排名

12万+: 访问

: 等级

1143: 积分

29: 粉丝

60: 获赞

37: 评论

426: 收藏

私信

关注

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

PyTorch自建数据集+可视化结果
Swayzzu: 你调试一下，打断点到这个位置看看，意思是这个地方应该是一个可迭代的对象（比如list类型之类的），但发现这个对象是个None，没法迭代
PyTorch自建数据集+可视化结果
学习成长记: 我在进行数据集导入时，出现错误：TypeError Traceback (most recent call last) Cell In[7], line 1 ----> 1 train_dataset = InfrasoundDataset('dataset',256, 'train') 2 val_dataset = InfrasoundDataset('dataset',256, 'val') 3 test_dataset = InfrasoundDataset('dataset',256, 'test') Cell In[6], line 15, in InfrasoundDataset.__init__(self, root, resize, mode) 12 self.name2label[name] = len(self.name2label.keys()) 13 # print(self.name2label) 14 # 加载或创建CSV文件并存储数据 ---> 15 self.images, self.labels = self.load_csv('Raw_TIFs.csv') 17 # 取train, val, test数据集 18 if mode=='train': TypeError: cannot unpack non-iterable NoneType object。请问这个是为什么？
KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。