1.基于《统计学习方法》和西瓜书
2.全文是关于学习中遇到的问题记录和解决理解记录
3.限于能力,不足之处,希望多多指教
4.本人会将及时学到的以及错误之处不断改正更新
一、机器学习简介
1.有监督学习
监督学习分为分类问题和回归问题
2.无监督学习
用的最多的就是聚类学习
3.强化学习
二、回归问题
重要内容简述:
1.线性回归以及要完成的任务
给定数据集(x1,y1).....(xn,yn)的一对样本点,假定x→y 符合线性模型,线性回归试图学习到线性模型的的参数,然后尽可能的在没有给定结果的X实现准确预测
2.线性模型
1> 单维情况的:
y=kx+b
2> 高维情况:
高维情况即为一个训练样本有有多个属性,每一个属性对于输出标签都有自己的重要程度,即w
3.线性模型参数的确定
1>线性模型损失函数(loss function)
损失函数是模型计算值(预估值)与训练样本标准值差异的衡量,均方差是最常用的性能度量标准
2>参数确定
线性模型参数的确定:使Loss function 的取值J (θ)最小的 θ参数 就是最优θ, Loss function 是凸函数,θ最优时,梯度为零 数学计算:直接求出 导数=0就是θ的最优值
基于均方差最小化来进行线性模型求解的方法就是最常用的“最小二乘法”,求得了w和b
计算执行(数值计算):梯度下降法 通过不断的迭代向着Loss function凸函数的最低点逼近
单维:
多维(下图显示二维):
上图右侧是二维曲面的等高线,红色线展示了梯度下降方法逐渐逼近最低点的过程
θ0取随机值, α为学习的步长,找准方向(梯度),每次迈进一小步,直至山底
4.模型拟合能力评估
1> 过拟合(overfitting)和欠拟合(underfitting)
所有的模型都可能存在过拟合的风险:更多的参数,更复杂的模型,意味着有更强的拟合能力,同时模型过于简单则对数据没法完全表达就是欠拟合现象,同时过拟合不是一件令人悲伤的事情,至少说明模型的拟合能力是足够的
2> 线性模型的防止过拟合的方式
线性模型是否存在过拟合的现象,表现方式又是怎样的?
答案是肯定的,线性模型也是存在过拟合的现象一个简单的解释当样本中存在大的噪声点时,模型的参数就会出现偏移
正则化项是处理过拟合情况的通用方式:(不但在线性模型而且在其他监督学习模型中都可以加入正则化)
图中上面 J(θ)等式是没有加入正则化的Lossfunction,下面等式是加入正则化的损失函数
正则化可以理解为对于 学习能力的惩罚,等式中参数的无限制的波动会使得J(θ)变小,但是伴随的是θ参数的大幅度波动,造成过拟合现象,所以加入λ倍的(θ的平方和)构成一个新的不等式,只有在保障原有J(θ)和惩罚项都小的情况下才是最佳的 优化参数
λ为惩罚系数,在实际应用中需要调试
三、分类问题
重要内容简述:
1.分类问题以及要完成的任务
找一个函数判断输入数据所属的类别,可以是二类别问题(是/不是),也可以是多类别问题(在多个类别中判断输入数据具体属于哪一个类别),分类问题应用线性回归模型处理效果非常差
2.分类模型
1>从线性回归到LR的过度
在《机器学习》.周志华老师的书中,线性模型虽然简单,但是变化丰富当用预测值去逼近真是值时,就会得到经典线性模型,但是让模型取去逼近真实值的衍生物时,就会得到另外的模型,比如对数线性回归
以此得到一个广义的线性回归的概念:因此在实现分类问题时,给线性回归模型加入一个sigmoid的变化就得到了对数几率回归(逻辑斯蒂回归)LR
→相对容易理解如下:
在解决如下分类问题时,可以看到线性回归给出了分割的边界,而分类样本处在直线的上方大于0,和小于0
所以只要将大于零映射尽量接近1,小于零映射接近0,就能完成样本的分类。sigmoid函数可以发挥最大的作用
2> sigmoid函数
sigmoid函数是一个数学特性很好的函数,单调性和求导都非常容易得到,单调递增,在负无穷时取值接近0,在正无穷时取值接近1,在0时函数取值0.5,导数为f(x)*(1-f(x))
sigmoid函数的神奇之处就是在处理如图上3为空间的分类任务时,直接把第三维数据压缩到二维空间(类似投影)(0和1)
可以发现有了sigmoid函数,就可以实现多维数据的分类,只要找到决策边界比如非线性分类:
只要找到这些分类的决策边界,(显然是一个类圆的函数),只要加入sigmoid函数,就能完成分类,所以并不是逻辑回归中的sigmiod函数不能就行分类,是因为逻辑回归底层嵌套函数(线性模型)没法进行非线性拟合,与此相反在神经网络中+sigmiod函数就能够实现非常不错的非线性分类
3>模型表达式
模型为线性模型和sigmoid函数的嵌套
3.逻辑斯蒂回归模型参数的确定
1> 损失函数
首先不能去取loss function ,由于sigmiod函数的加入,使得Loss function 的数学特性发生了变化,非凸函数
y(i)取值是 正样本为1 负样本为0 ,取估算概率的连乘,Log取值把乘法变加法方便计算
2> 参数确定
同样采用梯度下降
α为步长,需要合理调试
4.模型拟合能力评估
正则化:
λ为惩罚系数,原理同上面的线性模型
四、多分类问题
思路:
one VS one:两两进行分类
one VS rest:一对多分类,是A和不是A的处理