2021 sodic基于文本挖掘的企业隐患排查质量分析模型 TOP6方案

最新推荐文章于 2024-07-10 08:41:33 发布

nsytsqdtn

最新推荐文章于 2024-07-10 08:41:33 发布

阅读量424

点赞数

分类专栏：竞赛文章标签：人工智能机器学习深度学习自然语言处理算法

本文链接：https://blog.csdn.net/nsytsqdtn/article/details/126244595

版权

竞赛专栏收录该内容

5 篇文章 0 订阅

订阅专栏

2021 sodic基于文本挖掘的企业隐患排查质量分析模型 TOP6方案

1 写在前面

在本次sodic基于文本挖掘的企业隐患排查质量分析模型的比赛中，我们团队水煮毛血旺获得了A榜第四，B榜第六的成绩。

2 方案介绍

2.1赛题介绍

赛题链接：https://www.sodic.com.cn/competitions/900010

本赛题目标是要对企业上报的隐患进行分类，判断他们上报的隐患是否合格，并且也给出了隐患自查的标准。简单来说，这个题目就是一个文本分类问题，具体的分类怎么做，有几种不同的方法。

最简单的方式就是直接拿content出来用文本分类的方式去做，以为题目所要判断的主要是企业上报的内容，所以前面隐患自查的标准level重要性就没那么大。直接用content文本分类效果也挺好的。初次以外，还可以把level和content直接拼在一起，再进行分类。具体操作的方案很多，我主要尝试的是直接对content分类以及level和content拼接再分类，效果其实差不多。
第二种就是当做文本匹配来做，第一句话就是level，第二句话则是content。题目的大部分数据长度都不足512，但是少数拼接以后的数据会超过512，所以还要做一个截断处理。

2.2 模型方案

这个比赛最开始的时候，我是完全抛弃了以前的NLP代码结构，开始重构我的代码，但是代码构造起来确实太乱了，很多地方封装得太死，导致想改动模型的时候，就出现了困难，也导致了我前期写完代码以后，就没怎么做这个比赛，一直到后期才过来融合了几次结果。所以其实方案里面并没有做太多的内容，就是简单的bert 文本分类的baseline。最后通过融合达到B榜的成绩。

我主要采用的还是bert wwm模型，对bert进行预训练，然后微调。