机器学习简介

我的第一篇博客

这是一次全新的尝试,我想通过博客来记录自己的学习心得以及一些生活的感悟,也算是对自己定期的一个总结与检验。新学期伊始,接下来的计划就是学习吴恩达老师的机器学习课程以及简单的python编程,我会在这里不定期分享自己的学习资源与总结,希望自己能坚持认真学完,并可以和广大的机器学习爱好者一起探讨交流,共同进步!话不多说,推荐大家关注链接: link.,其中有关于该课程详细的中文笔记总结,作业笔记代码以及ppt等等,另外该课程也可以在网易云课堂免费获取,带中英文字幕,非常适合于机器学习初学者入门。

什么是机器学习

机器学习是目前信息技术中最激动人心的方向之一。我们在日常生活中不知不觉都会使用机器学习算法,例如谷歌和微软利用学习算法来排行网页,我们用Facebook或苹果的图片分类程序能认出朋友的照片,每次阅读电子邮件垃圾邮件筛选器,可以帮我们过滤大量的垃圾邮件,这些都是机器学习算法的应用。机器学习不只适用于人工智能领域,其涉及到各个行业和基础科学中,例如:

  1. 数据库挖掘 :大量的硅谷公司正在收集web上的单击数据,也称为点击流数据,并尝试使用机器学习算法来分析数据,更好的了解用户,并为用户提供更好的服务;
  2. 计算生物学 :生物学家们收集的大量基因数据序列、DNA序列和等等,机器运行算法让我们更好地了解人类基因组;
  3. 手写体识别 :及其学习算法已经学会如何读你信封,它可以自动选择路径,所以我们只需要花几个美分把这封信寄到数千英里外;
  4. 自定制程序 :每次你去亚马逊或Netflix或iTunes Genius,它都会给出其他电影或产品或音乐的建议,这是一种学习算法。软件能给这些自定制的建议的唯一方法是通过学习你的行为,来为你定制服务。;

那机器学习究竟是什么呢?
第一个机器学习的定义来自于Arthur Samuel。他定义机器学习为:在进行特定编程的情况下,给予计算机学习能力的领域。另一个定义由Tom Mitchell提出:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。我认为经验E 就是程序上万次的自我练习的经验,而任务T 就是下棋。性能度量值P呢,就是它在与一些新的对手比赛时,赢得比赛的概率。

目前存在几种不同类型的学习算法。主要的两种类型被我们称之为监督学习无监督学习。简单说两句,监督学习这个想法是指,我们将教计算机如何去完成任务,而在无监督学习中,我们打算让它自己进行学习。在接下来的部分,我会详细讲解对这两种方法的理解。

监督学习

在正式介绍监督学习之前,首先举一个简单的预测房价的例子。
假如你收集了一些房价的数据,如下图所示,横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一套750平方英尺房子,你觉得能卖多少钱。
在这里插入图片描述
我们应用学习算法,拟合一条直线,根据这条线我们可以推测出,这套房子可能卖$150,000,或者拟合二次方程的曲线可以推测出,这套房子能卖接近$200,000。这些都是学习算法里面很好的例子。
可以看出,监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。

再举另外一个监督学习的例子。假设说你想通过查看病历来推测乳腺癌良性与否。让我们来看一组数据:在这个数据集中,横轴表示肿瘤的大小,纵轴上,如果是恶性肿瘤则记为1,良性则记为0。
在这里插入图片描述
那么机器学习的问题就在于,你能否估算出肿瘤是恶性的或是良性的概率。用术语来讲,这是一个分类问题
分类指的是,我们试着推测出离散的输出值:0或1,即良性或恶性。而事实上在分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出0、1、2、3。0 代表良性,1 表示第1类乳腺癌,2表示第2类癌症,3表示第3类,但这也是分类问题。因为这几个离散的输出分别对应良性,第一类第二类或者第三类癌症,在分类问题中我们可以用另一种方式绘制这些数据点。

无监督学习

如上部分所述,对于监督学习里的每条数据,我们已经清楚地知道,训练集对应的正确答案,是良性或恶性了。
在无监督学习中,我们的数据没有任何的标签。所以我们已知数据集,却不知如何处理,也未告知每个数据点是什么。而无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同,其可能会把这些数据分成两个不同的簇。所以叫做聚类算法
聚类算法有很多方面的应用,例如谷歌新闻每天都收集非常多的网络新闻内容,它自动地把它们聚类到一起,再按照不同的闻事件主题的,将他们显示出来。再比如基因学的理解应用,一个DNA微观数据的例子。基本思想是输入一组不同个体,对其中的每个个体,你要分析出它们是否有一个特定的基因。技术上,你要分析多少特定基因已经表达。所以这些颜色,红,绿,灰等等颜色,这些颜色展示了相应的程度,即不同的个体是否有着一个特定的基因。你能做的就是运行一个聚类算法,把个体聚类到不同的类或不同类型的组(人)……
在这里插入图片描述
所以这个就是无监督学习,因为我们没有提前告知算法一些信息,比如,这是第一类的人,那些是第二类的人,还有第三类,等等。我们只是说这有一堆数据,我不知道数据里面有什么,也不知道谁是什么类型,我甚至不知道人们有哪些不同的类型,这些类型又是什么。但你能自动地找到数据中的结构吗?就是说你要自动地聚类那些个体到各个类,我没法提前知道哪些是哪些。因为我们没有给算法正确答案来回应数据集中的数据,所以这就是无监督学习,它是一种学习策略,交给算法大量的数据,并让算法为我们从数据中找出某种结构

总结

这就是我的第一篇博客啦,头一次写真的是又慢质量又差,而且大部分都是参考的吴恩达老师的课程笔记,不过就把他当做每天的学习总结吧,让自己明白今天一天没有荒废,慢慢找回学习的状态,每天都会有收获有进步!
下一篇博客,我将分享自己学习单变量线性回归的笔记总结,包括代价函数和梯度下降一些基本的定义,一起加油吧!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值