向AI转型的程序员都关注了这个号👇👇👇
机器学习AI算法工程 公众号:datayx
数据说明本次比赛将提供3种类型的数据:1、原始公告pdf,以{公告id}.pdf命名;2、公告pdf转换的html文件,以{公告id}.html命名;3、公告对应的结构化数据,以表格的格式给出,每种公告类型提供一份数据,每篇公告可能会对应多条数据,格式说明如下:
公告抽取赛题要求参赛选手从公告文本中抽取出1条或多条结构化数据,需要抽取的字段(Slot)是提前设定好的。
数据集、代码获取方式
关注微信公众号 datayx 然后回复 信息抽取 即可获取。
AI项目体验地址 https://loveai.tech
一、解决方案整体流程
二、结构提取
本次采用的是从HTML文件开始,在提取过程种保留了HTML的文档的结构,主要是标题,层次结构,表格信息等。
工具(Tools):Beautifulsoup
表格:表头识别、表格跨页合并、rowspan处理
段落标题:数字开头、内容矫正
图片:删除
三、文本预处理
全角字符转换:% -> %
空行、空格删除:
数字格式转换:68,059,079股 -> 68059079
数字单位转换:合计金额不低于4亿元人民币 ->合计金额不低于 400000000元人民币
格式纠错:表格转换错误,语句非正常断句等(HTML转换问题)。
四、表格处理
这里要注意,表格的描述信息应该加入到表格的判断中来。
五、实体识别
1、训练集反向标注实体建立实体识别训练集
2、BiLSTM-CRF训练NER模型(Tensorflow)
3、调用模型预测实体
在标注的时候注意实体间的关系,主键需要在统一句话中才标注,其他属性与部分主键同时出现才标注,这样可以控制标注数据集的假阳性。
六、实体关系确认
1、实体约束:明确的规则,ref [round2] FDDC_announcements_submit_notice_20180806.pdf
2、实体格式转换:日期、数量、金额,顿号分割等
3、实体过滤:例如全称和简称的位置关系、交易标的和标的公司的位置关系等
4、枚举的实体:锁定期、评估方法、认购方式
5、缩写、指代
6、主键组合:同一个句子里面的实体组合主键
7、属性关联主键:主键与属性出现在同一个句子的进行组合
8、条件规则过滤:关键词匹配句子过滤
9、去重
七、模型优化
1、实体标注技巧(Entity annotation skills):
按句子级别标注,同一个句子中包含所有主键则纳入训练集(primary key in one sentence)
简称、指代替换(full-short refer replacement)
信息损失,数字精度、日期简写(number precision、 date abbreviation)
2、奥卡姆剃刀:当公告结果只有一个主键时,其属性值不会产生歧义,往往属性不与主键在一个句子。
3、语义纠错:明显的单位错误,例如“万元”写成“元”,通过值域判断。
4、篇章语义:复杂文档会根据目录结构选择性阅读,而非整篇通读。
阅读过本文的人还看了以下:
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
长按图片,识别二维码,点关注
AI项目体验
https://loveai.tech