无监督学习(Unsupervised Learning)吴恩达老师课程笔记

        上一篇我们了解了监督学习(Supervised Learning),监督学习是我们给出一系列已知的x和y,学习算法会分析输出x和输出y之间的映射关系,当我们再输入x时,学习算法可以给出一个预测的y值,还了解了监督学习的分类,包括回归(Regression)和分类(Classification)。本篇主要是学习无监督学习(Unsupervised Learning)。

引言

        接着上一篇监督学习中肿瘤的例子,下面这张图是监督学习中的分类(Classification),圈表示良性,×表示恶性,我们是依据良性或者恶性来对肿瘤进行划分,所以说,划分结果是依赖于输出y的值。

        同样的一些例子,放在接下来这张图片中,不再区分良性还是恶性,划分依据不再依赖于结果,而是值通过size和age进行划分。也就是说,只是将很多病人的年龄和tumor size记录下来,不管他们最后检查结果是什么。那我们的目标就是寻找某种结构或者说是某种模式。

定义

        看完上面的例子,我们应该是对无监督学习有一点点想法了。它为什么叫无监督学习?那是因为我们不需要给算法一些正确的输入和输出,去监督运行过程,我们做的事情是把我们已知的东西丢给算法,让算法自己去找这些东西有什么好玩的有意思的地方,或者这些数据中可能有什么模式或者结构。

        Data only comes with inputs x,but not output labels y. Algorithm has to find structure in the data.

分类

聚类(clustering algorithm)

        无监督学习算法可能会将数据分为不同的两个组(groups)或者集群(clusters)。因此,它也有可能决定,哪一部分数据组成了哪一个集群组,这就是一种特殊的无监督学习,成为聚类算法(a clustering algorithm),这个算法将许多不知道结果的东西分成了组,分成了不同的集群。

例一

        依据谷歌新闻为例,下面这张图给出了关于日本大熊猫产下双胞胎的新闻,我们可以看出,不同的新闻里面包含了很多相同的关键词:panda,twin,zoo,我们自然是不可能将panda,twin,zoo列为关键词将它划分出来,因为这个算法要可以处理巨大的数据量,而且新闻话题每天变化,所以只能让算法在没有监督的情况下,自己去找出今天新闻标题的集群是什么

例二

        下图中每一列都是一个人的基因表示,所以下面这样图是很多个人的基因并排放在了一起,某一横行代表一个基因,比如下面有一行可以代表眼睛的视觉,零一行可能表示一个人的身高,还有其他行可能代表某个人更喜欢吃什么。图中不同的颜色(红色,绿色,灰色)表示了某个基因的活跃程度。

        我们可以做一个聚类算法将人分为不同的组,基因相似的分为一个group,那么这就是一种无监督学习,因为我们没有提前告诉算法哪种人有哪些特征,没有提前告诉算法正确答案的示例。

例三

        很多公司都拥有庞大的用户信息数据库,如果告诉我们一些数据,我们能否将客户划入某一个类,以便更有效地为客户服务。

        比如现在有一个机器学习交流平台,我们可以依据假如平台的目的,将用户划分为几种不同的组。当然我们实现没有告诉算法,哪些用户是属于哪些组的,所以这也是无监督学习。

总结

        聚类算法(clustering algorithm)是将没有标签的数据自动分组,放入不同的集群中( group similar data points together)

异常检测(Anomaly detection)

        用于异常检测(find unusual data points),在金融系统的欺诈检测中是非常重要的,异常事件,异常交易都有可能是欺诈。

降维(Dementionality reduction)

        降维是给一个大数据集,然后对其进行压缩,在丢失尽可能少的信息的情况下,将它压缩到一个小得多的数据集

  • 25
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值