吴恩达机器学习课程笔记(一)机器学习介绍及常用机器学习算法分类

吴恩达 斯坦福大学Machine Learning课程

( 我已经放弃在CSDN上边做笔记边看课程视频了,这样效率很低下。更新于:2018.7.17 ,推荐大家去看黄海广博士的个人笔记,有机器学习课程的,也有deeplearning.ai课程的,不仅有根据课程,字幕,PPT整理的笔记,还有各种作业的资源下载。详情参考https://blog.csdn.net/luolan9611/article/details/81077759,快来吞下这口安利!)


1.什么是机器学习:

     1.1 定义一:来自Arthur Samuel(1959).

         Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.

        机器学习就是不通过显式的编程能让计算机自主学习的研究领域。Samuel写了一个下跳棋的程序,让程序和程序自身下了成千上万盘棋,逐渐的,程序开始意识到什么样的局势能赢,什么样的会输,它反复的学习,然后这个程序的棋艺打败了Arthur Samuel自己。维基百科上说Arthur Samuel在IBM第一台商用计算机IBM 701上做了第一个跳棋程序,然后这个程序导致IBM股票在隔夜时间上涨了15个点。

     1.2定义二:来自Tom Mitchell(1998)

        Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

      一个适当的学习问题定义如下:一个计算机程序从一些任务的经验中学习,然后再去做任务,它在T上的表现用P来衡量,表现会因为学到的经验而自我完善。任务简称为T,经验简称为E,性能简称为P。

        举个栗子:

        假设你的邮箱观察你标记哪些邮件为垃圾邮件,哪些不标记为垃圾邮件来学习如何更好的过滤垃圾邮件,那么在这个情景中,有以下三个选项:

                                        A.把邮件分类为垃圾邮件或非垃圾邮件

                                        B.观察你把邮件标记为垃圾邮件或非垃圾邮件

                                        C.正确标记为垃圾邮件或非垃圾邮件的个数

        在这个问题中,把邮件分类为垃圾邮件或非垃圾邮件是任务T,观察把邮件标记为垃圾邮件或非垃圾邮件是学习经验E,正确标记为垃圾邮件或非垃圾邮件的个数是性能P。你GET到了吗?

 

2.机器学习算法分类:

常用的是两类:

                        监督学习 Supervised Learning

                        无监督学习 Unsupervised Learning

 

2.1监督学习

        简单的来说,监督学习就是,从给定正确答案的数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。常见的监督学习问题可以分为两类,回归问题(Regression)和分类问题(Classification)。

        2.1.1回归问题(预测连续值的输出

        比如说有买房的打算,已经做过数据统计了,100平米的房子是这个价位,120平米的是多少钱,180平米,230平米是多少钱,现在想买个150平米的房子想知道它的大概价位。那就是从已知正确答案的数据(房屋面积-价格)中学习一个函数来拟合这些数据,然后预测150平的房子多少钱。在这里,价钱被我们看作一个连续值。

        2.1.2分类问题(预测离散值的输出

        比如说要根据肿瘤的大小去预测该肿瘤是良性的还是恶性的,如果说已经拿到了一群肿瘤病人的肿瘤数据,有个人肿瘤直径大小是A,是良性;有个人也是A,但是恶性;有个人是B,是恶性;C是X性,D是X性......现在让你预测肿瘤大小O是良性肿瘤还是恶性肿瘤。这其实是个简单的二分类问题,如果记良性肿瘤为0,恶性肿瘤为1,那么我们就是找一个函数,能够最好的将良性还是恶性肿瘤分开,输出的值为离散的,要么是0要么是1。当然,这里只是简单的二分类,还可以有3分类,4分类。比如预测天气,晴天,雨天,阴天,多云......等等等等。

        上面举的例子,给的都是单一的特征,比如房子面积去决定价格,当然价格不只由面积决定,还有所在地区,交通设施,环境配置等等决定。比如肿瘤大小决定良性恶性,当然不只有肿瘤的尺寸决定啦。机器学习当然可以学习多个特征多个属性,对于无穷多的特征无穷多的属性也有办法解决,那是后面要讲的。

         再次强调,对于监督学习中的样本,我们是已经清楚知道了什么是正确答案的。

 

2.2无监督学习

      对于给定的数据集,自动把数据分成簇。对于这些数据,我们缺乏足够的先验知识,并不知道哪个数据属于哪个类,甚至也都不知道那些类是什么,我们只是给算法大量的数据,要求算法找出数据的结构。

       鸡尾酒会算法:比如在鸡尾酒会上录下了酒会的音频,有主持人的声音,有播放的背景音乐,鸡尾酒会算法可以自动分离不同声音频道的声音哈哈,就可以把主持人声音和背景音乐分离开来,一个音频只有人声,一个只有音乐。

        举例聚类算法的应用:

                        1.社交网络的分析:通过社交账号信息,好友列表,可以自动识别同属一个圈子的朋友

                        2.市场分割:对于给定的客户数据集,可以将客户自动细分到不同的市场

                        3.天文数据分析:星系形成理论

        再次强调,无监督学习事先是不给数据集任何标注的。

 

        这篇文章我没有去找配图,但我一直觉得博客要图文并茂才是优秀的哈哈。看视频容易,整理笔记困难。我是边看视频边敲下一些关键字,当几段视频看完后,自己再根据回忆来把博客写完整,如果还有不太明确的地方就去看回放。坚持写博客并没有那么简单,希望我能把这个学习笔记坚持下去,加油!

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值