回归

1、什么叫回归分析?

变量之间的关系是现实世界中普遍存在的,一般可以分为两类:一类是确定性关系,另一类是非确定性关系,也称相关关系。确定性关系很好理解,若有变量x和y,当变量x的值确定后,y的值也随之确定,这种关系就是确定性关系。相似地,非确定性关系是指,变量x和y是有联系,但是当x的值确定时,y的值却是不确定的,比如血压和年龄,身高和体重等。通常,研究变量间相关关系的统计分析方法称为回归分析。

2、回归模型

当自变量x的值确定后,因变量Y的值还不能完全确定,我们可以把它看做随机变量。当x值确定后,随机变量Y的数学期望是随之确定的,而且是x的函数,记为μ(x),成为Y关于x的回归函数。

因此,x与Y之间的关系可以用如下模型描述:Y=μ(x)+ε,其中ε是随机误差,满足E(ε)=0。该模型只有一个自变量,因此又称一元回归分析

如果μ(x)是x的线性函数,即μ(x)=a0+a1*x,则模型可化为:Y=a0+a1*x+ε,其中a0是常数项,a1是回归系数,该模型成为一元线性回归模型

为了估计μ(x),首先要确定它的形式,可以通过画散点图来估计。

一元线性回归模型解决问题:

1)对a0、a1、ε(σ^2)进行点估计,获得回归方程(a0、a1采用最小二乘法进行估计)

2)对回归系数(a1)进行假设检验

3)使用模型进行预测

3、常用回归模型介绍

3.1、逻辑回归
3.1.1 简介
逻辑回归的模型是一个非线性模型,sigmoid函数,,又称逻辑回归函数,但本质上又是一个线性回归模型,因为出去sigmoid映射函数关系,其他的步骤、算法都是线性回归的。可以说逻辑回归是以线性回归的理论支撑的。
逻辑回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同。这两种回归可以被归于同一个家族,即广义线性模型。该家族模型形式相似,因变量不同:
  • 如果是连续的,就是多重线性回归;
  • 如果是二项分布,就是Logistic回归;
  • 如果是Poisson分布,就是Poisson回归;
  • 如果是负二项分布,就是负二项回归。
Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。
Logistic回归的主要用途:
  • 寻找危险因素:寻找某一疾病的危险因素等;
  • 预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;
  • 判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
3.1.2 步骤
1)寻找h函数
2)构造J函数,即损失函数
3)想办法使得J函数最小并求得回归参数

1)寻找h函数
sigmoid函数:


http://blog.csdn.net/pakko/article/details/37878837

2)构造损失函数

【注】损失函数:函监督学习问题是在假设空间F中选取模型f作为决策函数,对于给定的输入X,由f(X)给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致,用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。损失函数是f(X)和Y的非负实值函数,记作L(Y, f(X)).
常用损失函数有以下几种:
a.0-1损失函数(0-1 loss function): 

b.平方损失函数(quadratic loss function)

c.绝对损失函数(absolute loss function)

d.对数损失函数(logarithmic loss function) 或对数似然损失函数(log-likelihood loss function)
L(Y,P(Y|X))= -logP(Y|X)
损失函数越小,模型就越好。
e.平方损失函数(最小二乘法)


逻辑回归的损失函数选择对数损失函数:

综合起来写:

取似然函数:

对数似然函数为:

最大似然估计就是求使取最大值时的θ,其实这里可以使用梯度上升法求解,求得的θ就是要求的最佳参数。但是,在Andrew Ng的课程中将取为下式,即:

即:

因为乘了一个负的系数-1/m,所以取最小值时的θ为要求的最佳参数。

3)想办法使得J函数最小并求得回归参数
梯度下降法求的最小值。


3.1.2过拟合问题

过拟合问解决方法
1)减少特征数量(减少特征会失去一些信息,即使特征选的很好)
可用人工选择要保留的特征;
模型选择算法;
2)正则化(特征较多时比较有效)
保留所有特征,但减少θ的大小题往往源自过多的特征。


3.1.3 多类分类问题
对于多类分类问题,可以将其看做成二类分类问题:保留其中的一类,剩下的作为另一类。
对于每一个类 i 训练一个逻辑回归模型的分类器,并且预测y = i时的概率;对于一个新的输入变量x, 分别对每一个类进行预测,取概率最大的那个类作为分类结果:



  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值