非监督学习初探

导读

非监督学习,就如同字面意思,没有人监督的,也就是机器自学。

非监督学习的定义

现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

——摘自百度百科:无监督学习

这个定义似乎比监督学习更简单,最起码而言没有涉及过多的理科专有词汇。不过这个定义依然比较抽象,我们来举个例子看看:

你是一个大老板,能赚很多钱,但是除了赚钱一无所知。这一天,你拿到了一车黑色液体,里面有酱油,有生抽,有可乐,甚至有枇杷膏。你知道这些是你能够发财致富的东西,可你却完全不知道它们之间的区别是什么。于是你请了一队人工具人来帮你鉴定分类,他们都是各种菜系的国家级厨师,能够很快根据自己的经验捕捉到这瓶黑色液体的显著特点,并鉴定出这到底是什么;然后给你分好类、装好箱、上好架。最后,你根据他们分好的类别去货架上贴好标签,你的店铺就被整理得整整齐齐的了。

听起来这个例子无论是机器还是学习都扯不上半点关系,但这个例子确实说明了无监督学习的几个特点

  • 缺乏足够的先验知识,因此你没有办法直接给这些黑色液体标注类别;

  • 因为量太大,自己标注所需要花费的时间成本太高,只好交给别人,而且是极其有耐心的工具人

那么,我们在这两条特点的基础上继续整理出无监督学习的使用条件

  • 庞大的样本集合中选出一些具有代表性的加以标注用于分类器的训练;

  • 先将所有样本自动分为不同的类别,再由人类对这些类别进行标注

  • 无类别信息情况下,寻找好的特征;

也就是说,只要这组数据并没有明确分类,只是整个数据集一股脑地全扔给了程序,那就需要使用非监督学习。而如果你已经明确知道了这一大串数据集中哪些是第一类,哪些是第二类,就像是垃圾邮件和星标邮件的明显区别,就是监督学习

同时,监督学习和非监督学习另外一个区别则是数据的认定。在监督学习中数据将会被认定为“正确”,而非监督学习只会当成单纯的数据进行分类,不问对错,只给结果。

是不是有点能理解了呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ordinary_brony

代码滞销,救救码农

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值