yolov4 火灾检测，烟雾检测、古文预训练语言模型等AI开源项目分享

最新推荐文章于 2024-08-19 09:46:08 发布

niuyunpang

最新推荐文章于 2024-08-19 09:46:08 发布

阅读量1.2k

点赞数 1

文章标签：大数据自然语言处理编程语言 python 机器学习

本文链接：https://blog.csdn.net/niuyunpang/article/details/119185300

版权

本文分享了几个AI开源项目，包括FinBERT——金融领域预训练语言模型，古文BERT——古文预训练模型，以及fire-detect-yolov4——火灾和烟雾检测系统。FinBERT在金融任务中表现优越，古文BERT适用于古文研究，fire-detect-yolov4则用于目标检测。

摘要由CSDN通过智能技术生成

~ 文末免费送书 ~

项目一：FinBERT基于 BERT 架构的金融领域预训练语言模型

项目地址：

https://github.com/valuesimplex/FinBERT

为了促进自然语言处理技术在金融科技领域的应用和发展，熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 FinBERT 1.0。据我们所知，这是国内首个在金融领域大规模语料上训练的开源中文BERT预训练模型。相对于Google发布的原生中文BERT、哈工大讯飞实验室开源的BERT-wwm 以及 RoBERTa-wwm-ext 等模型，本次开源的 FinBERT 1.0 预训练模型在多个金融领域的下游任务中获得了显著的性能提升，在不加任何额外调整的情况下，F1-score 直接提升至少 2~5.7 个百分点。
在这里插入图片描述

FinBERT 采用了两大类预训练任务，分别是字词级别的预训练和任务级别的预训练。两类预训练任务的细节详述如下：

（1）字词级别的预训练

字词级别的预训练首先包含两类子任务，分别是 Finnacial Whole Word MASK（FWWM）、Next Sentence Prediction（NSP）。同时，在训练中，为了节省资源，我们采用了与 Google 类似的两阶段预训练方式，第一阶段预训练最大句子长度为128，第二阶段预训练最大句子长度为 512。两类任务具体形式如下：

Finnacial Whole Word MASK（FWWM）

Whole Word Masking (wwm)，一般翻译为全词 Mask 或整词 Mask，出是 Google 在2019年5月发布的一项升级版的BERT中，主要更改了原预训练阶段的训练样本生成策略。简单来说，原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被mask。在全词Mask中，如果一个完整的词的部分WordPiece子词被 Mask，则同属该词的其他部分也会被 Mask，即全词Mask。

在谷歌原生的中文 BERT 中，输入是以字为粒度进行切分，没有考虑到领域内共现单词或词组之间的关系，从而无法学习到领域内隐含的先验知识，降低了模型的学习效果。我们将全词Mask的方法应用在金融领域语料预训练中，即对组成的同一个词的汉字全部进行Mask。首先我们从金融词典、金融类学术文章中，通过自动挖掘结合人工核验的方式，构建出金融领域内的词典，约有10万词。然后抽取预语料和金融词典中共现的单词或词组进行全词 Mask预训练，从而使模型学习到领域内的先验知识&#