一、回归算法
1.回归分析的概念
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。
2.回归分析的用途
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归分析。
3.逻辑回归
我这里学习的是了逻辑回归,简单介绍一下什么是逻辑回归:逻辑回归,就是自变量只取两个值,要么True要么False,逻辑回归的公式大家去百度查吧,大体就是一件事情发生概率除以没有发生概率再取对数。注意一点如果自变量为字符型,就需要进行重新编码。这就是说自变量是销量情况,比如销量高(True),销量低(False),在进行数据处理前我们要把高、低这两个属性进行编码,改为1,0之类的数字量。
4.预测课程销量
逻辑回归还是要大家亲自去查一查,毕竟这个东西还是很抽象的,下面我们就网上很流行的是否录取取决于什么 进行预测,通过编写逻辑回归函数实现一下,并预测课程销量。
先看一下需要预测的数据:
我们发现admit代表着是否录取(1:录取 0:不录取) 它受三个因素限制 成绩(gre)绩点(gpa)学校影响力(rank)。我们要做的就是建立逻辑回归模型,当给出成绩、绩点、学校排名后预测是否可以录取。
#逻辑回归 预测分数、绩点、学校影响力对是否录取的影响,并给出三个分数判断是否录取
import pandas as pda #导入pandas模块用来导入数据
from sklearn.linear_model import LogisticRegression as LR #导入逻辑回归模型
from sklearn.linear_model import RandomizedLogisticRegression as RLR #导入随机逻辑回归模型