街景字符编码识别-Task05-模型集成

学习目标

  • 学习集成学习方法以及交叉验证情况下的模型集成
  • 学会使用深度学习模型的集成学习

模型集成

  • 集成学习方法介绍
  • 深度学习中的集成学习
    • Dropout
    • TTA
    • Snapshot

一、集成学习方法介绍

集成学习(ensemble learning)通过构建并结合多个弱学习器来综合得到一个强学习器的方法。机器学习领域的集成方法有bagging、boosting、stacking。

Bagging(bootstrap aggregating,装袋)

Bagging使用装袋采样来获取数据子集训练基础学习器。通常分类任务使用投票的方式集成,而回归任务通过平均的方式集成。

1.从原始样本集中抽取训练集。每轮从原始样本集中使用有放的方法抽取n个训练样本。共进行k轮抽取,得到k个训练集

2.每次使用一个训练集得到一个模型,k个训练集共得到k个模型。

3.对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。

随机森林是一种常用的Bagging集成模型算法。

boosting(提升算法)

boosting是一族可将弱学习器提升为强学习器的算法,这类算法的步骤为:

1.先从初始训练集训练出一个基学习器;

2.再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注;

3.基于调整后的样本分布来训练下一个基学习器;

4.重复进行上述步骤,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。

常见的boosting算法有adaboost,gbdt等。

stacking

Stacking是通过一个元分类器或者元回归器来整合多个分类模型或回归模型的集成学习技术。基础模型利用整个训练集做训练,元模型将基础模型的特征作为特征进行训练。

二、深度学习中的集成学习

Dropout:在2012年的文章中《Improving neural networks by preventing co-adaptation of feature detectors》提出了在每次训练的时候,让一半的特征检测器停过工作,这样可以提高网络的泛化能力,Hinton又把它称之为dropout。具体的,在一次循环中,先随机选择神经层中的一些单元并将其临时隐藏,然后再进行该次循环中神经网络的训练和优化过程。在下一次循环中,又将隐藏另外一些神经元,如此直至训练结束。dtopout可以提高网络模型的泛化性能。

测试时增强(test time augmentation, TTA),是在测试阶段时,将输入的测试数据进行,翻转、旋转操作等数据增强,并最后对同一样本的不同数据增强的结果根据任务需求进行例如平均,求和等数据处理。

快照集成(Snapshot Ensembling),使用cos方式的学习率不断循环下降,上升的策略,可以使得模型收敛到多个全局最小值。从而可以使用这些模型进行集成学习。使用传统学习率训练的单个模型,模型精度可能会比使用cos方式训练的每个模型的精度都略高。但是cos方式的模型进行集成后,效果会优于传统方式训练的单个模型。

集成方法与深度学习相结合时,可以通过组合多个神经网络的预测来产生最终的预测结果。通常,集成不同结构的神经网络会得到一个性能不错的集成模型,因为每种模型可能在不同的训练样本上犯错,因此这样的集成方法能够最大化地提升模型的最终性能。

三、参考

[1]https://blog.csdn.net/zwqjoy/article/details/80431496

[2]https://blog.csdn.net/hjimce/article/details/50413257

[3]tt]https://blog.csdn.net/weixin_38208912/article/details/10497645

[4]https://www.cnblogs.com/makefile/p/dropout.html

[5]https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/80240645

天池是一个著名的数据科学竞赛平台,而datawhale是一家致力于数据科学教育和社群建设的组织。街景字符编码识别是指通过计算机视觉技术,对街道场景中的字符进行自动识别和分类。 街景字符编码识别是一项重要的研究领域,对于提高交通安全、城市管理和智能驾驶技术都具有重要意义。街道场景中的字符包括道路标志、车牌号码、店铺招牌等。通过对这些字符进行准确的识别,可以辅助交通管理人员进行交通监管、道路规划和交通流量分析。同时,在智能驾驶领域,街景字符编码识别也是一项关键技术,可以帮助自动驾驶系统准确地识别和理解道路上的各种标志和标识,为自动驾驶提供可靠的环境感知能力。 天池和datawhale联合举办街景字符编码识别竞赛,旨在吸引全球数据科学和计算机视觉领域的优秀人才,集思广益,共同推动该领域的研究和发展。通过这个竞赛,参赛选手可以使用各种机器学习和深度学习算法,基于提供的街景字符数据集,设计和训练模型,实现准确的字符编码识别。这个竞赛不仅有助于促进算法研发和技术创新,也为各参赛选手提供了一个学习、交流和展示自己技能的平台。 总之,天池datawhale街景字符编码识别是一个具有挑战性和实际应用需求的竞赛项目,旨在推动计算机视觉和智能交通领域的技术发展,同时也为数据科学爱好者提供了一个学习和展示自己能力的机会。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值