吴恩达机器学习课程笔记（一）机器学习介绍及常用机器学习算法分类

最新推荐文章于 2024-05-14 22:19:28 发布

luolan9611

最新推荐文章于 2024-05-14 22:19:28 发布

阅读量670

点赞数 1

分类专栏：深度学习/机器学习文章标签：机器学习吴恩达监督学习无监督学习

本文链接：https://blog.csdn.net/luolan9611/article/details/80111299

版权

深度学习/机器学习专栏收录该内容

8 篇文章 3 订阅

订阅专栏

吴恩达斯坦福大学Machine Learning课程

（我已经放弃在CSDN上边做笔记边看课程视频了，这样效率很低下。更新于:2018.7.17 ，推荐大家去看黄海广博士的个人笔记，有机器学习课程的，也有deeplearning.ai课程的，不仅有根据课程，字幕，PPT整理的笔记，还有各种作业的资源下载。详情参考https://blog.csdn.net/luolan9611/article/details/81077759，快来吞下这口安利！）

1.什么是机器学习：

1.1 定义一：来自Arthur Samuel（1959）.

Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.

机器学习就是不通过显式的编程能让计算机自主学习的研究领域。Samuel写了一个下跳棋的程序，让程序和程序自身下了成千上万盘棋，逐渐的，程序开始意识到什么样的局势能赢，什么样的会输，它反复的学习，然后这个程序的棋艺打败了Arthur Samuel自己。维基百科上说Arthur Samuel在IBM第一台商用计算机IBM 701上做了第一个跳棋程序，然后这个程序导致IBM股票在隔夜时间上涨了15个点。

1.2定义二：来自Tom Mitchell（1998）

Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

一个适当的学习问题定义如下：一个计算机程序从一些任务的经验中学习，然后再去做任务，它在T上的表现用P来衡量，表现会因为学到的经验而自我完善。任务简称为T，经验简称为E，性能简称为P。

举个栗子：

假设你的邮箱观察你标记哪些邮件为垃圾邮件，哪些不标记为垃圾邮件来学习如何更好的过滤垃圾邮件，那么在这个情景中，有以下三个选项：

A.把邮件分类为垃圾邮件或非垃圾邮件

B.观察你把邮件标记为垃圾邮件或非垃圾邮件

C.正确标记为垃圾邮件或非垃圾邮件的个数

在这个问题中，把邮件分类为垃圾邮件或非垃圾邮件是任务T，观察把邮件标记为垃圾邮件或非垃圾邮件是学习经验E，正确标记为垃圾邮件或非垃圾邮件的个数是性能P。你GET到了吗？

2.机器学习算法分类：

常用的是两类：

监督学习 Supervised Learning

无监督学习 Unsupervised Learning

2.1监督学习

简单的来说，监督学习就是，从给定正确答案的数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。常见的监督学习问题可以分为两类，回归问题（Regression）和分类问题（Classification）。

2.1.1回归问题（预测连续值的输出）

比如说有买房的打算，已经做过数据统计了，100平米的房子是这个价位，120平米的是多少钱，180平米，230平米是多少钱，现在想买个150平米的房子想知道它的大概价位。那就是从已知正确答案的数据（房屋面积-价格）中学习一个函数来拟合这些数据，然后预测150平的房子多少钱。在这里，价钱被我们看作一个连续值。

2.1.2分类问题（预测离散值的输出）

比如说要根据肿瘤的大小去预测该肿瘤是良性的还是恶性的，如果说已经拿到了一群肿瘤病人的肿瘤数据，有个人肿瘤直径大小是A，是良性；有个人也是A，但是恶性；有个人是B，是恶性；C是X性，D是X性......现在让你预测肿瘤大小O是良性肿瘤还是恶性肿瘤。这其实是个简单的二分类问题，如果记良性肿瘤为0，恶性肿瘤为1，那么我们就是找一个函数，能够最好的将良性还是恶性肿瘤分开，输出的值为离散的，要么是0要么是1。当然，这里只是简单的二分类，还可以有3分类，4分类。比如预测天气，晴天，雨天，阴天，多云......等等等等。

上面举的例子，给的都是单一的特征，比如房子面积去决定价格，当然价格不只由面积决定，还有所在地区，交通设施，环境配置等等决定。比如肿瘤大小决定良性恶性，当然不只有肿瘤的尺寸决定啦。机器学习当然可以学习多个特征多个属性，对于无穷多的特征无穷多的属性也有办法解决，那是后面要讲的。

再次强调，对于监督学习中的样本，我们是已经清楚知道了什么是正确答案的。

2.2无监督学习

对于给定的数据集，自动把数据分成簇。对于这些数据，我们缺乏足够的先验知识，并不知道哪个数据属于哪个类，甚至也都不知道那些类是什么，我们只是给算法大量的数据，要求算法找出数据的结构。

鸡尾酒会算法：比如在鸡尾酒会上录下了酒会的音频，有主持人的声音，有播放的背景音乐，鸡尾酒会算法可以自动分离不同声音频道的声音哈哈，就可以把主持人声音和背景音乐分离开来，一个音频只有人声，一个只有音乐。

举例聚类算法的应用：

1.社交网络的分析：通过社交账号信息，好友列表，可以自动识别同属一个圈子的朋友

2.市场分割：对于给定的客户数据集，可以将客户自动细分到不同的市场

3.天文数据分析：星系形成理论

再次强调，无监督学习事先是不给数据集任何标注的。

这篇文章我没有去找配图，但我一直觉得博客要图文并茂才是优秀的哈哈。看视频容易，整理笔记困难。我是边看视频边敲下一些关键字，当几段视频看完后，自己再根据回忆来把博客写完整，如果还有不太明确的地方就去看回放。坚持写博客并没有那么简单，希望我能把这个学习笔记坚持下去，加油！

luolan9611

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习课程笔记（一）机器学习介绍及常用机器学习算法分类

吴恩达斯坦福大学Machine Learning课程（我已经放弃在CSDN上边做笔记边看课程视频了，这样效率很低下。更新于:2018.7.17 ，推荐大家去看黄海广博士的个人笔记，有机器学习课程的，也有deeplearning.ai课程的，不仅有根据课程，字幕，PPT整理的笔记，还有各种作业的资源下载。详情参考https://blog.csdn.net/luolan9611/article...
复制链接

扫一扫