Task08:文本分类;数据增强;模型微调

本文探讨了文本分类在自然语言处理中的应用,强调了数据增强和模型微调的重要性。在图像识别中,数据增强通过图像裁剪、翻转、色彩调整等增加多样性,减少模型对特定位置和色彩的依赖。模型微调涉及预训练模型的使用,保留源模型的基础知识,仅微调输出层以适应目标数据集,即使数据有限也能取得良好预测效果。
摘要由CSDN通过智能技术生成

文本分类是自然语言处理的一个常见任务,它把一段不定长的文本序列变换为文本的类别。也就是 编码器-解码器的运用。

数据增强

通过前面的学习,我们知道有时候数据比算法更重要,也就是当我们拥有足够多的训练集的时候,即使我们的模型构建的不够好,也能够得出较好的预测效果。针对于图像识别模型,我们可以通过图像增⼴(image augmentation)技术来实现数据增强。
而图像增⼴(image augmentation)则是通过对训练图像做⼀系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模。如,我们可以对图像进行不同方式的裁剪,使感兴趣的物体出现在不同位置,从而减轻模型对物体出现位置的依赖性。我们也可以调整亮度、色彩等因素来降低模型对色彩的敏感度。

常用的图像增广的方法有:1.翻转和裁剪
2.变化颜色、亮度
3.图像放大缩小

图像增广基于现有训练数据生成随机图像从而应对过拟合。
为了在预测时得到确定的结果,通常只将图像增广应用在训练样本上,而不在预测时使用

模型微调

微调由以下四步组成:

  1. 在源数据集(如ImageNet数据集)上预训练⼀个神经网络模型,即源模型。(或者可以从网上下载别人已构建好的数据模型)
  2. 创建⼀个新的神经网络模型,即目标模型。它复制了源模型上除了输出层外的所有模型设计及其参数。我们假设这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。我们还假设源模型的输出层跟源数据集的标签紧密相关,因此在目标模型中不予采⽤。
  3. 为目标模型添加⼀个输出大小为目标数据集类别个数的输出层
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值