Machine Learning Day1-引言

第一章 绪论:初识机器学习

1.1 欢迎参加机器学习课程

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。在这门课程中,你将学习到机器学习这门技术,并可以自己实现机器学习算法。

1.2 什么是机器学习
1.2.1 机器学习的定义

Arthur Samuel(1959):在进行特定编程的情况下,使计算机具有学习能力的研究领域。

Tom Mitchell(1998):计算机程序从经验E(Experience)中学习,解决某一任务T(Task),达到性能度量值P(Performance),通过P测定在T上的表现因经验E而提高。例如在一个跳棋程序中,经验E表示程序与自己下的几万盘棋,任务T表示玩儿跳棋,性能度量P表示与对手玩儿跳棋时赢的概率。

1.2.3 常见的机器学习算法

监督学习:人类“教”计算机去做某一件事。
无监督学习:人类让计算机自己“学习”。

假设你经营着一家公司,你想开发学习算法来处理两个问题:

你有一大批同样的货物,假设你有上千件一模一样的货物等待出售,你想预测接下来的三个月能卖多少件?
你有许多用户,这时你想写一个软件来检验每一个用户的账户。对于每一个账户,你想要判断它们是否曾经被盗过?
那这两个问题,它们属于分类问题、还是回归问题?

问题一是一个回归问题,因为如果我有数千件货物,我会把它看成一个实数,即一个连续的值。因此卖出的物品数,也是一个连续的值。

问题二是一个分类问题,因为我可能会用 0 来表示账户未被盗,用 1 表示账户曾经被盗过。所以我们根据账号是否被盗过,把它们定为0 或
1,然后用算法推测一个账号是 0 还是 1,因为只有少数的离散值,所以我把它归为分类问题。

1.3 监督学习

监督学习,核心在“监督”二字,基本思想是,我们数据集中的每个样本都有相应的“正确答案”,即都被标记。再根据这些“正确答案”对新样本进行“监督”,最后得到预测结果。就像房子和肿瘤的例子那样。同时还介绍了回归问题,即通过回归来推出一个连续的输出,这里还介绍了分类问题,其目标是推出一组离散的结果。

1.4 无监督学习

监督学习的数据集,如上图左1表所示,其中每条数据都已经被标注,例如一个肿瘤是良性或恶性。所以,对于监督学习里的每条数据,我们已经清楚地知道,训练集对应的正确答案。

无监督学习,核心在“无监督”这三个字,我们数据集中的每个样本都没有相应的“正确答案”,即都未被标记,我们将这些数据交给算法,并让算法为我们从中找出某种结构。无监督学习的数据集与我们之前看到的不一样,如上图右1所示,所有数据都没有被标注,即无监督学习中没有任何的标签或者是都具有相同的标签。所以对于一个没有任何标签的数据集,无监督学习算法可以判定该数据集包含两个不同的簇(Cluster)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值