2021-02-20

吴恩达机器学习入门视频

对应网址:https://www.bilibili.com/video/BV164411b7dx?p=1&spm_id_from=pageDriver

推荐观看 P1-P4

P1 什么是机器学习

  • 定义什么是机器学习
  • 什么情况下使用机器学习

什么是机器学习?

在没有明确设置的情况下,是计算机具有学习能力的研究领域。

​ - Samuel 1950

Samuel 编写一个跳棋程序,并与之博弈近万把,结果跳棋程序学会了怎么下跳棋。我们需要注意的是机器的特质:比认类更有耐心。

计算机程序从经验 E 中学习,解决某一任务 T 并且进行某一性能的度量 P。(Perfomance measure)通过 P 测定在 T 上的表现因为经验 E 而提 高

在 Samuel 的案例中,T(Task)就是指下跳棋并且赢下;E (Experiexpence)指的是一万把博弈的学习过程;P 是指的下跳棋赢下的概率。

思考

现在假设场景是:我们在接受邮件的过程中,标注垃圾邮件并且告诉机器,让机器学习识别垃圾邮件并且拦截。那么这个场景中的 T 是什么?E 是什么?P 又是什么?

P2 学习算法

  • 监督学习
    • 我们教计算机做某件事
  • 无监督学习
  • 强化学习
  • 推荐系统

监督学习

假设我们现在有一些房屋的面积与出售价格的数据,而我的朋友想出售自己 750 feet 平方的房子(不晓得在中国是多大)。我们可以拟合数据称为一条直线,预测价格;当然我们也可以拟合数据称为一个二次函数,预测价格。其中这两种方式,我们可以暂且称之为模型。虽然使用哪个模型都不能决定房屋的出售价格,但是这个例子可以更好的帮助我们理解学习算法(learning algorithm)。

在这里插入图片描述

上述例子就是监督学习的最好例子,给出数据集且确保数据集的数据正确。(“right answes” given)算法的目的是为了给出更好的答案。(例如为朋友卖掉这个房子给出合理的估价)用逼格高一点的词汇,这个就叫做回归问题,回归问题指的是根据正确的历史数据,预测连续的数值输出。(我这里一直使用正确这个词,是因为错误的数据会给人误导,而正确数据才能给人正确的指引。)

如果我们相同过医疗数据,设法预测乳腺癌是恶性还是良性的。

首先,我们按照肿瘤尺寸与乳腺癌的恶性或良性的结果关联。这个时候我们会发现同一个尺寸,我们可能会获得两个输出的结果。

在这里插入图片描述

这个时候,我们可以使用多个特征(属性),比如患者的年纪。

在这里插入图片描述

当然,在机器学习中。我们不止可以处理几个特征,而是理论上可以处理无穷多特征的算法。理论上来说,特征越重要,特征数据越多,我们的预测会越准确。

思考
  • 如何在计算机中存储无穷多的特征数据?
  • 如何在计算机中处理无穷多的特征数据?

假设你经营一家公司,你想开发算法处理两个问题。

  1. 你有很多同一件货物的库存,你想预测接下来的三个月内你能卖出多少件?
  2. 第二个问题你有很多用户,你想要写一个软件来检查每个客户的账户,判断这个账户是否被入侵或破坏。
思考
  • 这两个问题应该是被归为分类问题还是回归问题?
    • 两个问题都是分类问题
    • 问题 1 是分类问题,问题 2 是回归问题
    • 问题 1 是回归问题,问题 2 是分类问题
    • 两个问题都是回归问题

我说说我的思考吧!预测三个月内卖出多少库存,其实可以依据我们的历史数据(确保数据真实),然后考虑季节或者其他影响因素时的历史数据。第二个问题,判断账户是否被入侵的特征(被入侵账号的特征与账户被入侵是否的真实数据)。理论上问题一是回归问题,问题二是分类问题。

无监督学习

前面判断肿瘤是否恶性的例子,每个数据都被明确的标记。(恶性 or 良性)监督学习中我们每个数据都被明确的标记为恶性 or 良性。在无监督学习中,我们的数据有点不同(数据都有相同的标签或者没有被明确的标记)

在这里插入图片描述

图中的数据集没有任何标记,但是我们可以根据聚集将它分为两部分。(逼格高点说就是聚类算法)那么你肯定会疑惑,没有标记的数据有什么用呢?谷歌新闻就采用了聚类算法来处理无标记的数据集。谷歌会每天去爬取上万条新闻,然后组合称为新闻专题。当然聚类算法也会被应用到更多的行业和(例如人体科学中的 DNA)

  • 我们并没有对数据集中的数据进行标注
  • 我们只是告诉计算机这里有一堆数据,至于数据是做什么的我也不知道,但是希望计算机能够自动找出这些数据的结构,并且希望计算机能够按照找出来的数据接口自动帮我们分类。

社交网络中,如果可以得知你联系频繁的人(无论来源是微信还是微博)。那么我们希望计算机可以自动识别哪些是同属一个圈子的朋友;在市场细分的应用,现在许多公司都有庞大的客户信息数据库,对于一个客户数据集,如何自动识别分类并且帮助产品的销售也是无监督学习应用的领域。

思考

如果我们一个音频中有多个音源,我们需要剥离音源,并且将音源进行指定分类输出,需要多少代码?视频说的是一行代码,但是这一行代码实际是很多算法工程师的心血,并非看起来那么简单,所以对于入门者最好的就是先调轮子(使用别人开发好的算法)找到学习机器学习的乐趣。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值