机器学习笔记1:线性回归

数据挖掘、人工智能等领域中存在两个:分类和回归。先说回归:

一些简单的数学题,求解问题往往通过求解未知数,也就是 通过给定的自变量和函数,通过函数求解得到未知数。

而机器学习是,通过给定的自变量函数的解,去求解函数。即求解function(x)=y。通过样本中大量的特征(x)和目标变量(y)求得这个函数(function)。高等数学中说到,大多数函数都能找到一个近似的泰勒展开式,其实,机器学习,就是医用数据去拟合这个所谓的“泰勒展开式”。

根据训练样本的过程不同,机器学习往往可以分为Supervised learning(监督学习)和Unsupervised learning(非监督学习)两类。简单理解的话:监督学习就好比你在做题目,做完以后有参考答案可以对照,从而得出获得正确答案的方法。而非监督学习则是只给你一堆题目,你做的题多了,自然也能判断出获得正确答案的规律。

监督学习多用于回归分析(求解是连续值,比如某一区间)和分类问题(求解是离散值,比如对错)。非监督学习初步多用于聚类算法(群分析)。

那么 ,问题来了,什么是线性回归呢?

  • 如果我们要通过大量的样本数据求解得到一个函数h(x)=y,那么我们大可以根据泰勒定理将h(x)展开为h(x)=k0x0(x的o次方)+k1x1+……,由于x的o次方=1,又可以简化为h(x)=k0+k1x1+……。为了方便起见,我们先假设只有K0和K1
  • 假设实际的函数为y,y=f(x),那么什么时候h(x)最接近f(x)?我们往往是这样做的,当h(x)最接近0的时候认为最接近。
  • 如果样本量很大的时候,我们就把h(x)-f(x)做一个平方,保证为正值,然后就可以球最小了。这样 就很方便,我们可以认为h(x)最接近f(x)的时刻为将所有样本(h(x)-f(x))进行平方,然后求和的最小值时候。
  • 那么 问题 又转化为一个目标问题,找到至少一个k0和K1,使得样本的偏差最小

那么问题来了,怎么找k0和k1?

通过,一种叫做“梯度下降法”的方法。对于任意的k0和k1,先分别求偏导,然后乘以一个a控制下降速度。然后选任意选取一个起点,然后,分别对于的k0和k1,加减一个值,使得J(k0加减z,k1加减z)<J(k0,k1),不断重复,直到再也找不到一个z(或者z太小可以忽略不计),使得J(k0加减z,k1加减z)<J(k0,k1),那么我们就算得到了这个k0和k1,也就是求得了函数。如果每次计算都得到的差值都很奇怪,比如一下大一下小,一下正一下负,可能是控制幅度太大,缩小a的值即可。不断重复直到差值小于一个你觉得合适的极小值。





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值