杭州全球人工智能技术创新大赛——商品标题实体识别决赛方案总结(2022)

一、赛题任务

   赛题官方网站

     

      本赛题为抽取出京东商品标题中包含的商品实体信息,其与传统的实体抽取不同点在于京东商品标题文本的实体密度高、实体粒度细。本任务包括52种实体类型,并全部脱敏,标注标签采用“BIO”的形式。

      官方给出100万条无标注数据+4万条标注数据。由此可以得出本赛题可以采用预训练或者半监督的方式进行构建模型,并且官方要求最终提交的模型为单模型。

二、各决赛选手方案

      入围决赛的一共有6只队伍,主要有两种方案,分别为预训练方案和半监督方案,其中5/6的选采用预训练方案,1/6的选手采用半监督方案。基础模型采用的都是nezha+global pointer。

1、预训练方案

5/6的选手采用的是此方案,模型训练流程为:

(1)预训练:有的选手尝试了多种预训练方案,包括MLM、N-gram、WWM,最终3/6的选手使用了MLM,2/6的选手采用的是N-gram。预训练模型采用的都是nezha,其中5/6采用的是nezha-base,1/6的选手采用的是nezha-large。

(2)五折交叉验证预测无标注数据得到伪标签数据:预训练模型后,为了充分利用无标注数据,5/6的选手都使用五折交叉验证对无标注数据进行预测。

(3)筛选上述打了伪标签的无标注数据:这里主要方法有筛选置信度高的无标注数据,筛选一部分置信度高的+随机选择的无标注数据、使用全部伪标签数据。

(4)原始训练集融合微调模型:6位选手的微调模型都采用的是nezha+global point的结构,使用的数据为上述筛选得到的伪标签数据和原始训练数据。

2、半监督方案

      在所有入围决赛的6位选手中,有一位选手没有采用预训练的方式,但是最终和采用预训练的选手的结果只在万分位上有差别。其方案流程为:首先提出一种针对电商领域命名实体识别的数据增强方法,并采用UDA半监督方式构建模型。模型整体结构为nezha+FLAT(Chinese NER Using Flat-Lattice Transformer)相对位置编码+global pointer。

(1)数据增强:针对电商命名实体识别任务,提出新的数据增强方法,主要包括三种:D1(样本内同类型实体随机替换)、D2(样本内n-gram随机交换位置)、D3(知识库内同类型实体随机替换)。最终使用单个增强方案没有提升,但是综合使用提升很多,达到和原始标注数据差不多的结果。并在先使用D1+D2+D3先微调模型,再使用原始数据微调模型得到了更好的结果。

(2) UDA半监督训练:将无标注数据、 原始标注数据、增强的标注数据一起输入模型,使用UDA论文中的训练方法进行训练。此选手尝试了三种训练方法,分别为不使用增强数据训练、所有数据放到一起直接训练、先使用增强数据训练有监督模型,再使用无标注和原始标签数据使用UDA方法进行半监督训练。最终最后一种达到最好的结果。

 此选手最终加入了FGM对抗训练、R-drop、伪标签得到最终最高的结果。

三、各选手训练策略

采用的都是基本的训练策略,主要包括以下几种:

(1)对抗训练:FGM对抗训练、FGM和PGD交叉训练、AWP、PGD,使用PGD对embedding层进行扰动和AWP对注意力层进行扰动相结合。

(2)EMA(指数滑动平均)。

(3)两阶段微调:先使用伪标签微调或者增强数据微调,再使用标注数据微调。

(4)混合精度训练。

(5)衰减学习率、分层学习率。

(6)融合nezha输出的几层结果,而不是只使用最后的输出。

(7)SWA(随机加权平均)。

(8)Spatial Dropout。

(9)标签平滑的损失函数。

(10)R-drop。

四、各选手预处理、后处理策略

1、预处理策略

(1)将空格换成逗号或者特殊符号。

(2)输入转为小写,减少未登陆词。

2、后处理策略

(1)处理标点符号和单子实体。

(2)使用训练数据,统计实体的名称、类别、数量,制作知识库。对于存在多个实体类别的情况,选择知识库中对应的实体的实体类型最大的类别输出。对于嵌套实体,有限选择知识库中存在的实体,如果都存在,则按照模型预测数值选择。

(3)对于重叠实体选择概率最高的实体。

五、其他策略

1、解决实体类型预测不准的问题

     有一位采用预训练方案的选手发现实体边界的准确率可以达到90%多,因此为了提升实体类型的准备率,使用论文Simplify the Usage of Lexicon in Chinese NER中的方法加入词汇信息,其中句子使用上述模型结构划分实体,而不是采用jieba分词(选手发现jieba分词后加入模型对模型没有效果)。然后使用word2vec训练实体embedding,最后按照此论文的方式加入预训练模型结构。

2、优化GlobalPointer的解码策略

      有一位选手发现训练任务的损失函数(交叉熵)与评价指标(微平均)侧重点不同,损失函数的最优解并不是评价指标的最优解,其针对Micro F1指标进行了阈值搜索。

3、模型结构优化

      有一位选手在nezha后续加入BILSTM,并使用拼接BILSTM的输出和nezha的输出,再输入GlobalPointer。

注:本文图片来源于参赛选手答辩PPT。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 杭州是国内人工智能发展的重要城市,有很多典型的人工智能企业公司。一些知名的公司包括: - 蚂蚁金服:是中国领先的数字金融服务公司,在人工智能、大数据等领域有很高的实力。 - 字节跳动:是一家专注于移动互联置、短视频领域的公司,也在人工智能领域有着很强的实力。 - 浙江蚁云科技:是一家专注于人工智能与大数据领域的公司,提供智能客服、智能语音识别等服务。 - 浙江智联科技:是一家以人工智能为核心的智能科技公司,主要提供人工智能技术解决方案和服务。 以上只是杭州人工智能典型企业公司的一小部分,杭州还有很多其他的人工智能公司。 ### 回答2: 杭州作为中国的科技创新中心之一,拥有许多人工智能领域的典型企业公司。 首先,阿里巴巴集团是杭州最知名的人工智能公司之一。作为全球领先的技术巨头,阿里巴巴在杭州设有人工智能研究院,并投资了多个人工智能相关的初创企业。阿里巴巴在人脸识别、语音识别、自然语言处理等领域取得了重大突破,其人工智能技术在电商、金融、物流等行业应用广泛。 其次,旷视科技是一家总部位于杭州人工智能独角兽公司。旷视科技专注于计算机视觉领域,研发和应用深度学习以及视觉感知技术。该公司的技术被应用于人脸识别、智能安防、自动驾驶等领域,取得了较高的市场份额和声誉。 此外,华杰科技是一家杭州高新技术企业,也是国内领先的人工智能解决方案提供商。该公司致力于开发智能语音交互技术,推动人工智能在智能家居、智慧医疗等领域的应用。 另外,云从科技是一家专注于物联网和人工智能技术的公司,总部位于杭州。该公司通过智能硬件和云计算技术,提供智慧城市、智能家居、工业自动化等领域的解决方案。 总之,杭州拥有众多典型的人工智能企业公司,它们在不同的领域取得了突出的成就,推动了杭州乃至全国人工智能产业的发展。这些企业凭借其创新能力和技术优势,为推动杭州建设“智慧城市”作出了积极贡献。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值