过去的一年里,深度神经网络开创了自然语言处理的激动人心的时代。 使用预训练模型的领域的研究已经导致许多NLP任务的最新结果的巨大飞跃,例如文本分类,自然语言推理和问答。一些关键的里程碑是ELMo,ULMFiT和OpenAI Transformer。 这些方法都允许我们在大型数据库(例如所有维基百科文章)上预先训练无监督语言模型,然后在下游任务上微调这些预先训练的模型。也许这一领域今年最激动人心的事件是BERT的发布,这是一种基于多语言Transformer的模型,它在各种NLP任务中取得了最先进的成果。 BERT是一种基于Transformer架构的双向模型,它以更快的基于注意的方法取代了RNN(LSTM和GRU)的顺序特性。 该模型还预训练了两个无监督的任务,掩模语言建模和下一个句子预测。 这允许我们使用预先训练的BERT模型,通过对下游特定任务(例如情绪分类,意图检测,问答等)进行微调。
我们将使用Kaggle的垃圾评论分类挑战来衡量BERT在多标签文本分类中的表现。
我们从哪里开始?
Google Research最近公开了BERT的张量流实现,并发布了以下预先训练的模型:
BERT-Base, Uncased: 12层, 768个隐层, 12-heads, 110M 个参数
BERT-Large, Uncased: 24层, 1024个隐层, 16-heads, 340M 个参数
BERT-Base, Cased: 12层, 768个隐层, 12-heads , 110M 个参数
BERT-Large, Cased: 24层, 1024个隐层, 16-heads, 340M 个参数
BERT-Base, Multilingual Cased (New, recommended): 104 种语言, 12层, 768个隐层, 12-heads,

本文探讨了BERT模型在多标签文本分类任务中的表现,通过Kaggle的垃圾评论分类挑战作为实例,使用BERT-Base, Uncased模型进行训练和评估。实验结果显示模型在验证集上的精度达到99.31%,各标签的ROC-AUC分数较高,证明了BERT在多标签分类任务中的有效性。"
80945077,7757429,IDEA Maven项目启动Tomcat报错ContainerBase.addChildInternal异常,"['IDEA', 'Maven', 'Tomcat', '项目部署', '异常处理']
最低0.47元/天 解锁文章

419

被折叠的 条评论
为什么被折叠?



