主体是基于苏神的keras代码【bert4keras在手,baseline我有】改写的,练习一下pytorch的使用。这里直接给出全部代码。
比赛链接:百度关系抽取大赛
数据集下载:链接: https://pan.baidu.com/s/1aUIbJOupIEruSn5Z_X7P3g 密码: rrrs(版权原因可能随时删除)
1 导入必要包
import
2 加载数据集
def
3 稍微调整数据集,抛弃较长的句子
def
4 读取schema
# 读取schema
5 自定义分词器
import
6 构建Dataset
class
7 编写模型
class
8 抽取三元组函数和评估函数
def
9 训练模型
def
Colab输出:
10 推断
def
代码还是较为简洁的,不过数据量太多,训练太慢,只训练了两三轮,应该还有挺大提升空间。并且参考往年的关系抽取还可以有很多提分点,不过个人时间有限,也没有机器,就不花过多时间在这上面了。下图是提交成绩,召回较低,再充分训练几轮应该还会有提升的,仅供参考。