KBQA-Bert学习记录-数据集构造

最新推荐文章于 2022-11-24 10:10:57 发布

Swayzzu

最新推荐文章于 2022-11-24 10:10:57 发布

阅读量1.8k

点赞数 1

分类专栏： NLP 文章标签： bert 自然语言处理知识图谱

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/swayzzu/article/details/121932297

版权

NLP 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

目录

一、数据集构造

1.数据集切分

2.NER数据集构造

3.属性相似度数据集构造

4.三元组构造

一、数据集构造

1.数据集切分

使用的数据集是来自NLPCC ICCPOL 2016 KBQA 任务集，其包含：

训练样本14 609 个，测试样本9 870个，格式如下：

将测试数据分成两半，一般作为验证数据，一半作为测试数据：

2.NER数据集构造

对train, val, test文件遍历，并从中将训练文本转为如下形式：

每个字对应一个实体标签，存放到列表中，句子与句子之间可以以空格分隔，存为txt格式文件。

之后将question, triple, answer这三类字符串，以CSV文件存储起来。

3.属性相似度数据集构造

一开始存了csv文件，里面就是问题、三元组、答案，因此，直接从三元组里面，截取出来中间的字符串，这个字符串就是属性。比如上面那个图，抽取出来的就是：作者、出版社、出版时间等。

抽取出来后，转换为列表并去重，并把尾部和中间的空格去掉，另外，有些属性是以"-"开头的，也需要把"-"去掉，并再次去重，得到属性列表。

接下来把问题和属性都取出来，对其进行文本预处理之后，在从其他的属性中，随机抽样5个作为负样本。

把正样本和负样本合并起来，这样就得到了一个样本的正负训练数据，形式如下：

之后可以把每一条结果，标注上序号存起来，得到最终属性训练数据。如下：

针对相似度属性的所有文件，我们查看一下句子的最长长度，以选择一个合适的Max Length

4.三元组构造

从原数据中处理即可，最终得到如下形式的训练数据，并以dataframe存储：

5.三元组导入到mysql

需要首先在mysql中，创建好一个数据库，这里直接设置好三个属性即可：entity, attribute, answer

之后通过sqlalchemy.create_engine，建立和数据库的连接。

通过pandas读取数据之后，可以直接通过pd.io.sql.to_sql，把读取好的数据，直接通过engine传入到数据库中。

读取一行看看：

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
KBQA-Bert学习记录-数据集构造

KBQA-BERT数据集构造
复制链接

扫一扫

专栏目录

Swayzzu CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

30万+: 周排名

151万+: 总排名

12万+: 访问

: 等级

1137: 积分

28: 粉丝

56: 获赞

35: 评论

394: 收藏

私信

关注

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞
传统方法车道线标注及相关知识
chigejuzi6661: 想要这个车道线检测源码
车道线分割项目记录-tusimple数据集处理
小学鸡！: 能给出完整的代码嘛？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。