半监督文本分类学习代码展示及最终总结

最新推荐文章于 2024-08-06 17:45:33 发布

IT_BD_Zhang

最新推荐文章于 2024-08-06 17:45:33 发布

阅读量1.4k

点赞数

分类专栏：软件工程应用与实践文章标签： python 自然语言处理深度学习

本文链接：https://blog.csdn.net/m0_52073096/article/details/122153321

版权

本文详细介绍了在2021SC@SDUSC项目中，使用normal_bert.py代码进行半监督文本分类的学习过程。通过分析`torch.nn`模块，理解神经网络构建，并探讨了BERT模型在处理输入数据时的细节。实验结果显示，Tmix和MixText在无标签数据处理上表现出色，尤其是MixText在分类任务中的优势。学期总结强调了深入学习自然语言处理的重要性，包括阅读、实践和团队合作，以提升对半监督文本分类的理解。

摘要由CSDN通过智能技术生成

2021SC@SDUSC

2021SC@SDUSC

normal_bert.py 代码分析

代码输入包含七个部分,分别为
input_ids,input_mask,segment_ids,masked_lm_positions,mask_lm_ids,masked_lm_weights,next_sentence_labels.
input_ids:表示tokens的ids
input_mask:表示哪些是input,哪些是padding.len(input_ids)个1,后面继续补0.对于mask的词,主要占了全部vocabulary的15%左右,在代码中对于每个词80%replace with [mask],10% keep original,10% replace with random word.超过了mask的词数,则终止.
segment_ids:第一个句子到[SEP]为0,后面为1.主要是对输入进行区分,判断输入的两个句子.
masked_lm_positions:表示句子中mask的token的position.
mask_lm_ids:表示句子中mask的token的id.
masked_lm_weights:表示句子中mask的token的权重.
next_sentence_labels:表示两个句子是不是相连的.

代码示例

class ClassificationBert(nn.Module):
    def __init__(self, num_labels=2):
        super(ClassificationBert, self).__init__()

加载预训练bert模

最低0.47元/天解锁文章

IT_BD_Zhang

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
半监督文本分类学习代码展示及最终总结

2021SC@SDUSCnormal_bert.py 代码分析
复制链接

扫一扫

专栏目录