机器学习笔记-1

机器学习参考资料

本人所用教程为吴恩达(Andrew Ng)的机器学习视频(地址:https://study.163.com/course/courseMain.htmcourseId=1004570029&trace_c_p_k2=907bef27048b43eba07d1927d30f2ade)以及周志华的机器学习(西瓜书)。我会穿插里面的一些内容,以达到最好的效果来理解机器学习相关内容。如果对内容有任何疑问,欢迎评论或者联系作者(CarisCzc@163.com)。

机器学习定义

机器学习是人工智能(AI)实现过程中的衍生物,或者说是人工智能在目前条件下的初步实现。是计算机发展到现在的一种新的能力。目前对于机器学习没有明确的定义。西瓜书中是这样解释:

机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验改善系统自身的性能。计算机系统中,"经验"通常以"数据"形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生"模 型" (model) 的算法,即"学习算法" (learning algorithm)

这个解释类似于吴恩达在视频中给出的一个定义:

[Tom Mitchell , 1997J 给出了一个更形式化的定义: 假设用 P 来评估计算机程序在某任务类 T上的性能,若一个程序通过利用经验E 在 T 中任务丰获得了性能改善,则我们就说关于T 和 P , 该程序对 E 进行了学习

在这之前,更早的定义是:

[Arthur Samuel , 1959] 在没有明确设置下,使计算机具有学习能力的研究领域(Field of study that gives computers the ability to learn without being explicitly programmed)

通俗的来讲,机器学习就是一种让计算机通过已有的数据对新的数据进行分析的能力(就像人们可以通过学习有关于猫的特征从而判断一个动物是不是猫,即便在之前并没有见过这只动物。)

目前机器学习的应用已经有一定的成效,一些方面如:

  1. 数据挖掘(Data mining)
  2. 自动化编程(用于一些我们没法手动编程的领域)如: 自动飞行,手写识别(hardwriting recognition),自然语言处理(NLP),计算机视觉(Computer Vision)
  3. 个人推荐系统
  4. 理解人类学习行为(模拟大脑,即真正的AI)

(题外话:小时候看钢铁侠,并不能看懂里面一些人物的性格特点,而最让我印象深刻的是钢铁侠的智能管家贾维斯。一直梦想能拥有一个类似的电脑。那时,人们的效率会增加很多。主要是炫酷,能装X。)

机器学习算法的分类

目前主要分为两大类:监督学习(Supervised Learning)和非监督学习(Unsupervised Learning)
另外的有:强化学习(Reinforcement Learning),推荐系统(recommender system)
监督学习是我们最常见的机器学习问题类型,吴恩达给出的定义是:

我们给算法一个带有正确答案的数据集,算法学习后,会在测试集上给出更多的正确答案(而这些测试集数据是数据集中并不存在的)

监督学习最主要的两个算法是:

  • 回归算法(Regression):用来预测连续型变量,找出函数来拟合数据集
  • 分类算法(Classification):用来预测离散型变量,通过对特征值的测量来将不同的数据进行分类。

非监督学习的主要算法是聚类算法(Clustering Algorithm)

线性回归模型

一个图可以让我们更好的去理解监督学习的本质
监督学习
其中假设函数的形式:
线性回归
一般用向量形式写成:
线性回归在这里插入图片描述
在这里插入图片描述
均方误差是回归任务中最常用的性能度量,因此我们可试图让均方误差最小化,即
在这里插入图片描述
均方误差有非常好的几何意义,它对应了常用的欧几里得距离或简称"欧氏距离" (Euclidean distance). 基于均方误差最小化来进行模型求解的方法称为"最小二乘法" (least square method). 在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小.
在这里插入图片描述
在这里插入图片描述
如果对于多个特征值,并且假设存在一个X0=1则变成了如下状态:
在这里插入图片描述
求偏导后,将值置为0,得出最优解
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以上大部分来自于西瓜书。对应的是吴恩达所讲的一元线性回归和多元线性回归的正规方程解法。在吴恩达的视频中还提到了梯度下降的算法,下面我将进行补充。

梯度下降算法

梯度下降算法相比于前面的正规方程有更好的普适性。是通过迭代找到最优解。在计算时会稍微复杂一些。而且在不同的位置,也许获得的最优解的值并不相同。梯度下降得到的是局部最优解
多元梯度下降:
在这里插入图片描述
在这里插入图片描述
其中α学习率,通过调整学习率,可以调整迭代时的步幅。学习率过大,会导致无限迭代(总是越过最优解,来回迭代)。学习率过小,会导致迭代步数过多,耗费资源(电脑死机,GG)。
当我们通过迭代逐渐接近最小值的时候,梯度下降会自动的通过导数的性质来减少步幅,所以不需要总是调整α的值

正规方程和梯度下降之间的区别

正规方程

  1. 不需要计算α
  2. 不需要迭代,一步到位
  3. 需要计算X的转置和逆矩阵
  4. 当特征量很大时,计算会很好缓慢(计算量随着n3增长,在特征量大于106后会比较明显)

梯度下降

  1. 需要选定学习率α
  2. 需要很多步迭代
  3. 当n很大时,也能很好的运作

特征缩放和均值归一化

西瓜书中并没有对此进行介绍,吴恩达的视频中讲到了这些。个人认为这一节并没有什么难以理解的地方。总的来说就是特征缩放(一般是对不同的特征量除以他们对应的最大值),来减少计算量(个人认为更多的是人为计算时使用)或使等值线更圆,更好的收敛。这样值会被约束在[-1,1]之间。
均值归一化
公式: Xi=(Xi-mean(X))/max(X)
效果:X会收敛在[-0.5,0.5]的区间之内

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值