总领
这一小节主要分为四个部分:
1、线性模型与回归
2、最小二乘与参数求解
3、对数线性回归
4、Logistic回归
线性模型与回归
线性:
两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。
注意:线性是指广义的线性,也就是数据与数据之间的关系。
线性模型一般形式:
其中X是由d维属性描述样本,xi是x在第i个属性上的取值。
向量形式:
回归基本思想:
虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。
最小二乘与求解
参数/模型估计:最小二乘法
一维数据
考虑为一维数据,设其回归值
与实际观察
之间存在的误差
,则学习目标为:
最小化均方误差:
多维数据:
对数线性回归:
本质:求取输入空间到输出空间的非线性函数映射
对数线性回归模型:
Logistic回归:分类问题
本质:
Logistic回归分析属于非线性回归,它是研究因变量为二项分类或多项分类结果与某些影响因素之间关系的一种多重回归分析方法
一般形式:
g()为联系函数,单调可微函数
Logistic回归优点:
1、无需事先假设数据分布
2、可得到“类别”的近似概率预测
3、可直接应用现有数值优化算法求取最优解,快速,高效。
注意:
Logistic回归可以算作是一种分类算法但也可以说是线性回归的拓展。之所以还将其归于广义的线性回归是因为它的推导是利用化归的思想在试图构造一个线性模型来解释因变量
Logistic回归分析的步骤 :
一)变量赋值及偏回归系数的意义
1、自变量的赋值
2、因变量的赋值
二)参数估计:常采用极大似然估计
极大似然估计:
目前已经发生的结果认定为这就是应该出现的结果,为什么会出现,因为出现这样的概率是最大。那么我们就构造出发生这个事件的概率,求其最大值下的参数 � 。而不同样本之间我们认为是相互独立的,所以他们的联合概率就是每一个样本概率的乘积。
三)模型的假设检验
1、 检验摸型
2、检验模型参数
Logistic回归分析的应用条件有:
-
因变量为二项分类或多项分类资料。
-
自变量可以是任意类型的资料,如定量资料、二分类资料、无序多分类资料或者有序分类资料等。
Logistic回归具体实现:
import numpy as np
from sklearn.preprocessing import OneHotEncoder
class Logistic:
def __init__(self, max_depth=5000):
self.sep = 0.01
self.onehot = OneHotEncoder()
self.max_depth = max_depth
def fit(self, train_x, train_y):
self.train_x = np.mat(train_x)
m, n = self.train_x.shape
# print(m,n)
self.simple = m # 样本数量
self.W = np.ones((n, 1)) # 初始权重
self.train_y = np.mat(train_y)
if self.train_y.shape[0] == 1:
self.train_y = np.mat(self.train_y.reshape((m, 1)))
self.W = self.Grade() # 最优权重
# 提取训练数据训练特征
def fit_transform(self, train_List, train_y=None):
x = np.array(train_List).T
y = np.array(train_y).T
train_x = self.onehot.fit_transform(x, y)
return train_x, y
def transform(self, test_x):
test_x = np.array(test_x)
return self.onehot.transform(test_x)
# sigmod 函数
def sigmod(self, X):
return 1/(1 + np.exp(-X))
# 梯度下降, 得到最优权重w
def Grade(self):
X = self.train_x
Y = self.train_y
for i in range(self.max_depth):
grad = X.T*(X * self.W - Y) # 梯度
self.W = self.W - self.sep * grad
# print(self.W)
return self.W
def predict(self, test_x):
data_y = self.sigmod(test_x * self.W)
# print(data_y)
predict_y = []
for y in data_y:
if y > 0.5:
predict_y.append(1)
else:
predict_y.append(-1)
return predict_y
if __name__ == '__main__':#0~1"a" 1~2"b" >2"c"
train_List = [[0.1,0.3,0.5,0.2,0.7,0.1,
1.2,1.1,1.4,1.9,1.7,1.2,1.5,
2, 2.2, 2.3, 3.1, 2.9, 3.7],
['a', 'a', 'a', 'a', 'a', 'a',
'b', 'b', 'b', 'b', 'b', 'b', 'b',
'c', 'c', 'c', 'c', 'c', 'c']
]
train_y = [1, 1, 1, 1, 1, -1, 1, -1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,]
test_data = [[0.1, "a"],
[1.9, "b"],
[3.1, "c"],
[0.7,"a"],
[0.3,"a"],
[1.5, "b"],
[2,"c"]]
Logic = Logistic()
train_x, train_y = Logic.fit_transform(train_List, train_y)
train_x = train_x.toarray() # train_x为稀疏矩阵,转化为array格式
Logic.fit(train_x, train_y)
test_x = Logic.transform(test_data) # test_x为稀疏矩阵,转化为array格式
test_x = test_x.toarray()
print("测试数据为:{}, 预测类别为:{}".format(test_data, Logic.predict(np.mat(test_x))))
结果显示:
总结:
logistic回归的目的是寻找一个非线性函数sigmoid的最佳拟合参数,从而来相对准确的预测分类结果。为了找出最佳的函数拟合参数,最常用的优化算法为梯度上升法,当然我们为了节省计算损耗,通常选择随机梯度上升法来迭代更新拟合参数。并且,随机梯度上升法是一种在线学习算法,它可以在新数据到来时完成参数的更新,而不需要重新读取整个数据集来进行批处理运算。
总的来说,logistic回归算法,其具有计算代价不高,易于理解和实现等优点;此外,logistic回归算法容易出现欠拟合,以及分类精度不太高的缺点。