机器学习简介

最新推荐文章于 2022-07-20 16:25:17 发布

Sweet_pin

最新推荐文章于 2022-07-20 16:25:17 发布

阅读量135

点赞数 1

分类专栏：吴恩达机器学习总结文章标签：机器学习吴恩达监督学习无监督学习

原文链接：https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

版权

吴恩达机器学习总结专栏收录该内容

1 篇文章 0 订阅

订阅专栏

机器学习简介

我的第一篇博客

我的第一篇博客

这是一次全新的尝试，我想通过博客来记录自己的学习心得以及一些生活的感悟，也算是对自己定期的一个总结与检验。新学期伊始，接下来的计划就是学习吴恩达老师的机器学习课程以及简单的python编程，我会在这里不定期分享自己的学习资源与总结，希望自己能坚持认真学完，并可以和广大的机器学习爱好者一起探讨交流，共同进步！话不多说，推荐大家关注链接: link.，其中有关于该课程详细的中文笔记总结，作业笔记代码以及ppt等等，另外该课程也可以在网易云课堂免费获取，带中英文字幕，非常适合于机器学习初学者入门。

什么是机器学习

机器学习是目前信息技术中最激动人心的方向之一。我们在日常生活中不知不觉都会使用机器学习算法，例如谷歌和微软利用学习算法来排行网页，我们用Facebook或苹果的图片分类程序能认出朋友的照片，每次阅读电子邮件垃圾邮件筛选器，可以帮我们过滤大量的垃圾邮件，这些都是机器学习算法的应用。机器学习不只适用于人工智能领域，其涉及到各个行业和基础科学中，例如：

数据库挖掘 ：大量的硅谷公司正在收集web上的单击数据，也称为点击流数据，并尝试使用机器学习算法来分析数据，更好的了解用户，并为用户提供更好的服务；
计算生物学 ：生物学家们收集的大量基因数据序列、DNA序列和等等，机器运行算法让我们更好地了解人类基因组；
手写体识别 ：及其学习算法已经学会如何读你信封，它可以自动选择路径，所以我们只需要花几个美分把这封信寄到数千英里外；
自定制程序 ：每次你去亚马逊或Netflix或iTunes Genius，它都会给出其他电影或产品或音乐的建议，这是一种学习算法。软件能给这些自定制的建议的唯一方法是通过学习你的行为，来为你定制服务。；

那机器学习究竟是什么呢？
第一个机器学习的定义来自于Arthur Samuel。他定义机器学习为：在进行特定编程的情况下，给予计算机学习能力的领域。另一个定义由Tom Mitchell提出：一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了经验E后，经过P评判，程序在处理T时的性能有所提升。我认为经验E 就是程序上万次的自我练习的经验，而任务T 就是下棋。性能度量值P呢，就是它在与一些新的对手比赛时，赢得比赛的概率。

目前存在几种不同类型的学习算法。主要的两种类型被我们称之为监督学习和无监督学习。简单说两句，监督学习这个想法是指，我们将教计算机如何去完成任务，而在无监督学习中，我们打算让它自己进行学习。在接下来的部分，我会详细讲解对这两种方法的理解。

监督学习

在正式介绍监督学习之前，首先举一个简单的预测房价的例子。
假如你收集了一些房价的数据，如下图所示，横轴表示房子的面积，单位是平方英尺，纵轴表示房价，单位是千美元。那基于这组数据，假如你有一套750平方英尺房子，你觉得能卖多少钱。
在这里插入图片描述
我们应用学习算法，拟合一条直线，根据这条线我们可以推测出，这套房子可能卖$150,000，或者拟合二次方程的曲线可以推测出，这套房子能卖接近$200,000。这些都是学习算法里面很好的例子。
可以看出，监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。在房价的例子中，我们给了一系列房子的数据，我们给定数据集中每个样本的正确价格，即它们实际的售价然后运用学习算法，算出更多的正确答案。用术语来讲，这叫做回归问题。我们试着推测出一个连续值的结果，即房子的价格。

再举另外一个监督学习的例子。假设说你想通过查看病历来推测乳腺癌良性与否。让我们来看一组数据：在这个数据集中，横轴表示肿瘤的大小，纵轴上，如果是恶性肿瘤则记为1，良性则记为0。
在这里插入图片描述
那么机器学习的问题就在于，你能否估算出肿瘤是恶性的或是良性的概率。用术语来讲，这是一个分类问题。
分类指的是，我们试着推测出离散的输出值：0或1，即良性或恶性。而事实上在分类问题中，输出可能不止两个值。比如说可能有三种乳腺癌，所以你希望预测离散输出0、1、2、3。0 代表良性，1 表示第1类乳腺癌，2表示第2类癌症，3表示第3类，但这也是分类问题。因为这几个离散的输出分别对应良性，第一类第二类或者第三类癌症，在分类问题中我们可以用另一种方式绘制这些数据点。

无监督学习

如上部分所述，对于监督学习里的每条数据，我们已经清楚地知道，训练集对应的正确答案，是良性或恶性了。
在无监督学习中，我们的数据没有任何的标签。所以我们已知数据集，却不知如何处理，也未告知每个数据点是什么。而无监督学习就能判断出数据有两个不同的聚集簇。这是一个，那是另一个，二者不同，其可能会把这些数据分成两个不同的簇。所以叫做聚类算法。
聚类算法有很多方面的应用，例如谷歌新闻每天都收集非常多的网络新闻内容，它自动地把它们聚类到一起，再按照不同的闻事件主题的，将他们显示出来。再比如基因学的理解应用，一个DNA微观数据的例子。基本思想是输入一组不同个体，对其中的每个个体，你要分析出它们是否有一个特定的基因。技术上，你要分析多少特定基因已经表达。所以这些颜色，红，绿，灰等等颜色，这些颜色展示了相应的程度，即不同的个体是否有着一个特定的基因。你能做的就是运行一个聚类算法，把个体聚类到不同的类或不同类型的组（人）……
在这里插入图片描述
所以这个就是无监督学习，因为我们没有提前告知算法一些信息，比如，这是第一类的人，那些是第二类的人，还有第三类，等等。我们只是说这有一堆数据，我不知道数据里面有什么，也不知道谁是什么类型，我甚至不知道人们有哪些不同的类型，这些类型又是什么。但你能自动地找到数据中的结构吗？就是说你要自动地聚类那些个体到各个类，我没法提前知道哪些是哪些。因为我们没有给算法正确答案来回应数据集中的数据，所以这就是无监督学习，它是一种学习策略，交给算法大量的数据，并让算法为我们从数据中找出某种结构。

总结

这就是我的第一篇博客啦，头一次写真的是又慢质量又差，而且大部分都是参考的吴恩达老师的课程笔记，不过就把他当做每天的学习总结吧，让自己明白今天一天没有荒废，慢慢找回学习的状态，每天都会有收获有进步！
下一篇博客，我将分享自己学习单变量线性回归的笔记总结，包括代价函数和梯度下降一些基本的定义，一起加油吧！

Sweet_pin

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习简介

机器学习简介我的第一篇博客什么是机器学习监督学习无监督学习总结我的第一篇博客这是一次全新的尝试，我想通过博客来记录自己的学习心得以及一些生活的感悟，也算是对自己定期的一个总结与检验。新学期伊始，接下来的计划就是学习吴恩达老师的机器学习课程以及简单的python编程，我会在这里不定期分享自己的学习资源与总结，希望自己能坚持认真学完，并可以和广大的机器学习爱好者一起探讨交流，共同进步！话不多说，推...
复制链接

扫一扫