从零开始的机器学习 L1自学笔记:什么是机器学习(1)

  最近刚入手了陈强的《机器学习及python应用》,准备有时间就看一页,把笔记和想法写下来,以便自己复习和网上大佬指点迷津。

  希望自己能够坚持下去,有空就写一写,直到学完为止,然后用它来发一篇文章,给自己的努力一个交代,不过学业繁杂又很忙,可能很久才能更新一次。

1.1什么是机器学习

  机器学习是指让计算机具备从大数据中学习的能力的一系列方法。机器学习源于人工智能(artificial intenlligence,AI).

 1.1.1硬编码和学习

  硬编码是指人类直接把规则告诉计算机,计算机根据这些死规则处理数据。

  比如利用计算机进行垃圾邮件分类,人们可以通过设置含有“抽奖”等字眼的短信为垃圾信息,计算机就会把含有关键词的短信自动列为垃圾短信。但这种硬编码做法并不高效,因为很多垃圾短信的内容五花八门。

  学习则是人类将数据交于计算机自行判断,计算机通过自己学习大量数据从而总结出结果。

  比如实现将标注为“垃圾短信”和“正常短信”的短信输入电脑,电脑根据大数据中“垃圾短信”中特征出现频率来总结哪些关键词是“垃圾短信”的关键词,一个垃圾邮件通常包涵很多关键词,这时候通常可以使用数学方法,如“朴素贝叶斯”,通过垃圾邮件的一个特征,算出该短信为垃圾短信的条件概率,再将各种特征综合起来,算出短信为垃圾短信的概率,加入概率超过临界值(如0.9),则将该短信列为垃圾短信。这种方法就叫“贝叶斯垃圾邮件过滤”

 1.1.2大数据与机器学习

  机器学习通过大数据来进行学习,显然数据越多,机器学习的效果越好,并且数据可以根据时间动态更新。

1.2机器学习的分类

 1.2.1监督学习

  “监督学习”就是有目标的学习。假设第i位个体数据(或观测值)可以写为\left ( yi,xi\right ),“监督学习”就是用xi预测yiyi起着监督和指导的作用,因此“监督学习”又叫做“预测性建模”。比如垃圾邮件的例子,xi可以表示为不同词汇出现在垃圾邮件中的频率, yi为一个取值为0或1的虚拟变量或哑变量,取值为1表示为垃圾邮件。“监督学习”还可以根据yi的性质进一步细分。若yi是连续变量,则称为“回归”;如果是离散变量(或虚拟变量),则称为“分类”

 1.2.2非监督学习

  与“监督学习”相对的就是“非监督学习”。和“监督学习”不同的地方在于,对于“非监督学习”,数据只是xi,没有yi,而整个 “非监督学习”的过程就是为了在xi中找到某种规律,这个规律就类似于“监督学习”中的yi,但它是未被给定的。 常见的非监督学习方法包括“主成分分析”(principal component analysis)与“聚类分析”(cluster analysis)等

 1.2.3其他分类

如“半监督学习”、“强化学习”等,略

1.3机器学习的术语

xi一般被称为“自变量”、“解释变量”、“协变量”,在机器学习中被称作“特征”

yi一般被称为“因变量”、“被解释变量”、“结果变量”,在机器学习中被称为“相应变量”或“目标”。对于分类问题,离散的yi(响应变量)又被称作“标签”或“类别”

第i个数据一般在统计学中被称为“观测值”或“样本点”,在机器学习中被称为“样例”或“示例”  

学习书目:陈强《机器学习及python应用》

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值