迁移学习 自我学习

本文介绍了迁移学习和自我学习的概念,重点讨论了它们在数据不足时如何帮助提升模型性能。迁移学习通过利用旧数据中的有效信息来增强新任务的训练,而自我学习则在少量标注样本下,利用大量无标注数据进行学习。文章探讨了两种学习方式的适用场景,包括监督学习、半监督学习和无监督学习,并提到了实际应用中的例子。
摘要由CSDN通过智能技术生成

分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

               

分类: Machine Learning   1415人阅读  评论(0)  收藏  举报

        最近在看Ng的深度学习教程,看到self-taught learning的时候,对一些概念感到很陌生。作为还清技术债的一个环节,用半个下午的时间简单搜了下几个名词,以后如果会用到的话再深入去看。

        监督学习在前一篇博客中讨论过了,这里主要介绍下迁移学习、自我学习。因为监督学习需要大量训练样本为前提,同时对训练样本的要求特别严格,要求训练样本与测试样本来自于同一分布。要是满足不了这要求咋办?那您看看下面几种学习方法能不能帮上忙吧。

  •  迁移学习 transfer learning

        有时候困扰大家的一个问题在于训练数据的标定。这将会耗费大量的人力与物力。另外,机器学习假设训练数据与测试数据服从相同的数据分布。然而许多情况下,这种同分布假设并不满足。通常可能发生的情况如训练数据过期,也就是好不容易标定的数据要被丢弃,而另外有一大堆新的数据要重新标定。迁移学习的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。讲白了,就是当前只有少量新的标记的数据,但是有大量旧的已标记的数据(甚至是其他类别的有效数据),这时通过挑选这些旧数据中的有效的数据,加入到当前的训练数据中,训练新的模型。用一句原话则是:

       Transfer learning is what happens when someone finds it much easier to learn to play chess having already learned to play checkers, or to recognize tables having already learned to recognize chairs; or to learn Spanish having already learned Italian。

       迁移学习的代表作是《Boosting for Transfer Learning》有关它的介绍可以看这里,我就不多说啥了,多的我也不懂。

  • 自我学习 self-taught learning 

        自我学习和半监督学习一样,当前手头上只有少量训练样本,但是周围手头上还有大量无标注样本。举一个经典的例子,分离大象和犀牛。对于监督学习来说,我们手头有大量大象的样本和犀牛的样本,接下来训练分类器,进行分类,大家都知道的。对于迁移学习,则是指我们手头上有大量羊的样本和马的样本(已标记),少量的大象和犀牛的样本,接下来就要从羊和马的样本中选出有效的样本分别加入到大象和犀牛的标记样本中,然后再用监督学习的方法训练分类器。而非监督学习,则是手上仅有少量大象和犀牛的已标记样本,另外有一堆大象和犀牛的没有标记的数据(注意它们中要么是大象要么是犀牛,没有其他物种)。半监督学习就是利用这些样本训练分类器,实现分类。而自我学习,同样是手上仅有少量大象和犀牛的已标记样本,另外有一大堆自然图像。所谓自然图像,就是有大象和犀牛的图片,还有各种其他物种的图片。自我学习比半监督学习更适合实际场景-----哪有一堆只有大象和犀牛的图片给你呢?而自然图像的来源更加广泛,可以从互联网上随便下载。

     

       自我学习实现的方法如下图所示。首先通过未标注的自然图像提取一组特征(如稀疏字典,sparse coding,很神奇的一个东西,以后还会再研究)。这样任何一个标注和未标注的图像都可以用这组特征表示出来。由于每一个标注后的样本都被表示成了这些特征------注意这些特征捕捉了图像的高层结构,将表示后的标注的样本训练一个分类器进行分类。

 
参考资料:
1.   Boosting for transfer learning
2.   Self-taught learning: transfer learning from unlabeled data

 

迁移学习

分类: 数据挖掘   220人阅读  评论(0)  收藏  举报
作者: 薛贵荣

       在传统的机器学习的框架下,学习的任务就是在给定充分训练数据的基础上学习一个分类模型,然后利用这个学习到的模型对测试文档进行分类与预测。然而,机器学习算法在当前互联网应用研究中存在一个关键问题,即一些新出现的领域中大量训练数据非常稀缺。随着互联网的高速发展,Web 应用领域的发展非常快速,大量新的领域不断涌现,从传统的新闻,到网页,到图片,再到博客、播客等。首先, 传统的机器学习需要对每个领域都标定大量训练数据,这将会耗费大量的人力与物力;而没有大量的标注数据,会使很多与学习相关研究与应用无法开展。其次,传统的机器学习假设训练数据与测试数据服从相同的数据分布。然而,在许多情况下,这种同分布假设并不满足。通常可能发生的情况,如训练数据过期。这往往需要去重新标注大量的训练数据以满足训练的需要,但标注新数据是非常昂贵的,需要大量的人力与物力。从另外一个角度看,如果有了大量的、在不同分布下的训练数据,完全丢弃这些数据也是非常浪费的。如何合理地利用这些数据就是 迁移学习(transfer learning)主要解决的问题。迁移学习可以 从现有的数据中迁移知识,用来帮助将来的学习。迁移学习的目标是
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值