文本分类半监督学习

最新推荐文章于 2023-11-26 09:58:52 发布

永远只有12划

最新推荐文章于 2023-11-26 09:58:52 发布

阅读量1.3k

点赞数

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45274913/article/details/120815013

版权

2021SC@SDUSC

基于bert_base模型的文本分类半监督学习在bert的模型之上加入无标签数据增强技术，本文开始进入bert模型的探索和uda无标签数据增强入门。

1.概述：

DisTillBERT 作为bert模型的简化版，亲手实践其完成句子分类的整个过程无疑是bert入门的绝佳指南。

数据集：

https://github.com/clairett/pytorch-sentiment-classification/raw/master/data/SST2/train.tsv

数据概览如下：

该数据集共两千行数据，每一行数据都已标记为0,1两种标签。

2.目标：

使用预训练好的DisTillBERT来完成这2000个句子的嵌入，将模型的输出划分为训练集和测试集就可以得到训练和评估回归模型的数据集，从而利用回归模型完成分类任务。

整个过程可以分为bert分词器对数据集中的句子进行分词，将每一个句子分成若干词条，再加入句子分类所需的特殊词（在句子开始加入 [CLS]，末端加入 [SEP]），最后将这些词替换成词嵌入表中的编号转换成能够直接被DisTillBERT处理的形式。如下图所示：

至此，DisTillBERT部分结束，实践可参考代码：

https://github.com/jalammar/jalammar.github.io/blob/master/notebooks/bert/A_Visual_Notebook_to_Using_BERT_for_the_First_Time.ipynb。

3.uda部分技术TSA：

在半监督学习中，如果未标记数据和标记数据的数量存在巨大的差距。因此，模型往往会很快地对标记数据产生过拟合的现象。此处采用Training Signal Annealing(TSA）训练方法，随着未标签数据的增加，逐步去除带标签数据，从而避免模型过拟合到带标签的训练数据。代码三处条件对应着方法的三种阈值函数线性，指数，对数。

举例：

对数函数中，阈值前期增长速度快，后期增长速度慢。适用于数据量多的有标签的数据，不易发生过拟合，我们希望阈值增长得快一点，减少删除一些有标签的数据。

永远只有12划

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
文本分类半监督学习

2021SC@SDUSC基于bert_base模型的文本分类半监督学习在bert的模型之上加入无标签数据增强技术，本文开始进入bert模型的探索和uda无标签数据增强入门。1.概述：DisTillBERT 作为bert模型的简化版，亲手实践其完成句子分类的整个过程无疑是bert入门的绝佳指南。数据集：https://github.com/clairett/pytorch-sentiment-classification/raw/master/data/SST2/train.tsv数据
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。