机器学习(Machine Learning)第一天

机器学习第一章(动机与应用)

1.1 应用

1.1.1 数据挖掘
  • 原因之一:网络和自动化技术的增长,巨大的数据集
  • (1)大量的硅谷公司正在收集web上的单击数据,也称为点击流数据,并尝试使用机器学习算法来分析数据,更好的了解用户,并为用户提供更好的服务。
  • (2)医疗记录。随着自动化的出现,我们现在有了电子医疗记录。把医疗记录变成医学知识,更好地理解疾病。
  • (3)计算生物学。还是因为自动化技术,生物学家们收集的大量基因数据序列、DNA序列和等等,机器运行算法让我们更好地了解人类基因组。
  • (4)工程方面,在工程的所有领域,我们有越来越大、越来越大的数据集,我们试图使用学习算法,来理解这些数据。另外,在机械应用中,有些人不能直接操作。例如,我已经在无人直升机领域工作了许多年。我们不知道如何写一段程序让直升机自己飞。我们唯一能做的就是让计算机自己学习如何驾驶直升机。
1.1.2 手写识别
  • 现在我们能够非常便宜地把信寄到这个美国甚至全世界的原因之一就是当你写一个像这样的信封,一种学习算法已经学会如何读你信封,它可以自动选择路径,所以我们只需要花几个美分把这封信寄到数千英里外。

1.2 机器学习是什么?

  • 第一个机器学习的定义来自于Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域。
    注:他编写了一个西洋棋程序。通过编程,让西洋棋程序自己跟自己下了上万盘棋。通过观察哪种布局(棋盘位置)会赢,哪种布局会输,久而久之,这西洋棋程序明白了什么是好的布局,什么样是坏的布局。

  • 另一个年代近一点的定义,由Tom Mitchell提出,来自卡内基梅隆大学,Tom定义的机器学习是,一个好的学习问题定义如下,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。
    注:经验E 就是程序上万次的自我练习的经验而任务T 就是下棋。性能度量值P呢,就是它在与一些新的对手比赛时,赢得比赛的概率。

  • Field of study that gives computers the ability to learn without being explicitly programmed
    从数据中自动学习出规律

1.3 监督学习

1.3.1 例子A
  • 房价数据分析:
    横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。
    基于这组数据,一套750平方英尺房子能卖多少钱。
    房价分析
    那么关于这个问题,机器学习算法将会怎么帮助你呢?
  • (1)在这组数据中画一条直线,或者换句话说,拟合一条直线,根据这条线我们可以推测出,这套房子可能卖,当然这不是唯一的算法。
  • (2)用二次方程去拟合可能效果会更好。根据二次方程的曲线,我们可以从这个点推测出,这套房子能卖接近。
  • (3)稍后我们将讨论如何选择学习算法,如何决定用直线还是二次方程来拟合。
1.3.2 概念
  • 监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。
    在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价。
  • 运用学习算法,算出更多的正确答案。
    比如你朋友那个新房子的价格。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。
    注:一般房子的价格会记到美分,所以房价实际上是一系列离散的值,但是我们通常又把房价看成实数,看成是标量,所以又把它看成一个连续的数值。回归这个词的意思是,我们在试着推测出这一系列连续值属性。
1.3.3 例子B
  • 推测乳腺癌良性与否:
    横轴表示肿瘤的大小,纵轴上,标出1和0表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为1,不是恶性,或者说良性记为0。
  • 我有5个良性肿瘤样本,在1的位置有5个恶性肿瘤样本。
    现在我们有一个朋友很不幸检查出乳腺肿瘤。假设说她的肿瘤大概这么大(粉),那么机器学习的问题就在于,你能否估算出肿瘤是恶性的或是良性的概率。用术语来讲,这是一个分类问题
  • 分类:推测出离散的输出值:0或1良性或恶性,而事实上在分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出0、1、2、3。0 代表良性,1 表示第1类乳腺癌,2表示第2类癌症,3表示第3类,但这也是分类问题。
    乳腺癌
  • (1)因为这几个离散的输出分别对应良性,第一类第二类或者第三类癌症,在分类问题中我们可以用另一种方式绘制这些数据点。
  • (2)用不同的符号来表示这些数据。良性的肿瘤改成用 O 表示,恶性的继续用 X 表示。来预测肿瘤的恶性与否。
1.3.4 例子B升华
  • 在其它一些机器学习问题中,可能会遇到不止一种特征
  • 举个例子,我们不仅知道肿瘤的尺寸,还知道对应患者的年龄。在其他机器学习问题中,我们通常有更多的特征,比如肿块密度,肿瘤细胞尺寸的一致性和形状的一致性等等,还有一些其他的特征。
  • 之后学习算法:支持向量机,不仅能处理2种3种或5种特征,即使有无限多种特征都可以处理。
    乳腺癌-多特征

1.4 无监督学习

1.4.1 特点
  • 在无监督学习中,我们已知的数据。无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,就是一个数据集。你能从数据中找到某种结构吗?
  • 针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。事实证明,它能被用在很多地方。
    监督
    无监督
  • 聚类应用:谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。它再将这些新闻分组,组成有关联的新闻。
1.4.2 例子A
  • 基因学的理解应用。一个DNA微观数据的例子。
  • 基本思想是输入一组不同个体,对其中的每个个体,你要分析出它们是否有一个特定的基因。
  • 技术上,你要分析多少特定基因已经表达。所以这些颜色,红,绿,灰等等颜色,这些颜色展示了相应的程度,即不同的个体是否有着一个特定的基因。你能做的就是运行一个聚类算法,把个体聚类到不同的类或不同类型的组(人)……
    DNA微观数据
  • 聚类只是无监督学习中的一种。

参考内容:
机器学习个人笔记——吴恩达教学文档版
CS299 Machine Learning
个人总结用,侵删。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值