实体识别+表格识别,A股上市公司公告信息抽取(附数据集+视频)

640?wx_fmt=gif

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程  公众号:datayx

数据说明本次比赛将提供3种类型的数据:1、原始公告pdf,以{公告id}.pdf命名;2、公告pdf转换的html文件,以{公告id}.html命名;3、公告对应的结构化数据,以表格的格式给出,每种公告类型提供一份数据,每篇公告可能会对应多条数据,格式说明如下:

640?wx_fmt=png

公告抽取赛题要求参赛选手从公告文本中抽取出1条或多条结构化数据,需要抽取的字段(Slot)是提前设定好的。

640?wx_fmt=png

640?wx_fmt=png

 

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

数据集、代码获取方式

关注微信公众号 datayx  然后回复 信息抽取  即可获取。

AI项目体验地址 https://loveai.tech

一、解决方案整体流程

640?wx_fmt=jpeg

二、结构提取

本次采用的是从HTML文件开始,在提取过程种保留了HTML的文档的结构,主要是标题,层次结构,表格信息等。

640?wx_fmt=jpeg

工具(Tools):Beautifulsoup

表格:表头识别、表格跨页合并、rowspan处理

段落标题:数字开头、内容矫正

图片:删除

三、文本预处理

全角字符转换:% -> %

空行、空格删除:

数字格式转换:68,059,079股 -> 68059079

数字单位转换:合计金额不低于4亿元人民币 ->合计金额不低于 400000000元人民币

格式纠错:表格转换错误,语句非正常断句等(HTML转换问题)。

四、表格处理

这里要注意,表格的描述信息应该加入到表格的判断中来。

640?wx_fmt=jpeg

五、实体识别

1、训练集反向标注实体建立实体识别训练集

2、BiLSTM-CRF训练NER模型(Tensorflow)

3、调用模型预测实体

640?wx_fmt=png

在标注的时候注意实体间的关系,主键需要在统一句话中才标注,其他属性与部分主键同时出现才标注,这样可以控制标注数据集的假阳性。

640?wx_fmt=jpeg

六、实体关系确认

1、实体约束:明确的规则,ref [round2] FDDC_announcements_submit_notice_20180806.pdf

2、实体格式转换:日期、数量、金额,顿号分割等

3、实体过滤:例如全称和简称的位置关系、交易标的和标的公司的位置关系等

4、枚举的实体:锁定期、评估方法、认购方式

5、缩写、指代

6、主键组合:同一个句子里面的实体组合主键

7、属性关联主键:主键与属性出现在同一个句子的进行组合

8、条件规则过滤:关键词匹配句子过滤

9、去重

七、模型优化

1、实体标注技巧(Entity annotation skills):

   按句子级别标注,同一个句子中包含所有主键则纳入训练集(primary key in one sentence)

   简称、指代替换(full-short refer replacement)

   信息损失,数字精度、日期简写(number precision、 date abbreviation)

2、奥卡姆剃刀:当公告结果只有一个主键时,其属性值不会产生歧义,往往属性不与主键在一个句子。

3、语义纠错:明显的单位错误,例如“万元”写成“元”,通过值域判断。

4、篇章语义:复杂文档会根据目录结构选择性阅读,而非整篇通读。

640?wx_fmt=jpeg

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png


阅读过本文的人还看了以下:

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

640?wx_fmt=jpeg

长按图片,识别二维码,点关注

AI项目体验

https://loveai.tech

640?wx_fmt=png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值