Python机器学习算法 —— 回归

2021 Nqq

已于 2022-09-06 09:19:28 修改

阅读量746

点赞数

分类专栏： Python 文章标签： python 机器学习回归

于 2022-06-13 17:57:09 首次发布

本文链接：https://blog.csdn.net/qq_42731062/article/details/122273816

版权

Python 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

文章目录

1.1 线性回归模型

对于给定的训练集数据，线性鬼给的目的是找到一个与这些数据最为吻合的线性函数。一般情况下线性回归模型假设函数为：
$h_{w, b}(x)=\sum_{i=1}^{n} w_{i} x_{i}+b=w^{\mathrm{T}} x+b$ 其中, $\in \mathbf{R}^{n}$ 与 $\in \mathbf{R}$ 为模型参数, 也称为回归系数。为了方便, 通常将 $b$ 纳句量 $w$ , 作为 $w_{0}$ , 同时为输入向量 $x$ 添加一个常数 1 作为 $x_{0}$ :
$=(b,w_{1},w_{2},....,w_{n})^{\mathrm{T}}$ $=(1,x_{1},x_{2},...,x_{n})^{\mathrm{T}}$ 假设函数为： $h_{w}(x)=\sum_{i=0}^{n} w_{i} x_{i}=w^{\mathrm{T}} x$ 其中， $\in \mathbf{R}^{n+1}$ ，通过训练确定模型参数 $w$ 后，可使用模型对新的输入示例进行预测。

1.2 最小二乘法

$\nabla J(w)=\frac{1}{N} \sum_{i=k}^{k+N}\left(w^{\mathrm{T}} x_{i}-y_{i}\right) x_{i}$

小批量梯度下降算法的参数更新公式为:
$w:=w-\eta \frac{1}{N} \sum_{i=k}^{k+N}\left(w^{\mathrm{T}} x_{i}-y_{i}\right) x_{i}$

项目实战

Logistic回归

1. 数据准备

红酒数据集文件

步骤1：调用numpy中genfromtxt函数加载数据集

import numpy as np
x = np.genfromtxt('wine.data',delimiter=",",usecols = range(1,14)) 
#读取第2到最大14列
y = np.genfromtxt('wine.data',delimiter = ',',usecols = 0)

1、参数delimiter: 分隔符，将每行中的元素分割为列的字符或者字符串，一般是用“，”，一系列整数作为参数也可以
2、参数usecols:读取的列数，一般默认是从0-max

这篇博客对于上述的参数有详细的解释

步骤2：使用logistic回归鉴别第1类和第2类红酒，因为Logistic回归只能处理二元分类问题，需要将数据集第3类红酒样本去除

idx = y != 3
x = x[idx]
y = y[idx]

步骤3：目前y中类的标记为1和2，转换为算法使用的0和1

y -= 1

这样数据准备工作都完成了

2. 模型训练与测试

LogisticRegression的超参数如下：

梯度下降最大迭代次数 n_iter
学习率 eta
损失降低阈值tol(tol不为None时, 开启早期停止法)

步骤1：以超参数(n_iter = 2000, eta = 0.01, tol = 0.0001)创建模型

from logistic_regression import LogisticRegression
# 梯度下降最大迭代次数 n_iter, 学习率 eta, 损失降低阈值tol(tol不为None时, 开启早期停止法)
clf = LogisticRegression(n_iter = 2000, eta = 0.01, tol = 0.0001)

步骤2：调用sklearn中的train_test_split函数将数据集分为训练集和测试集，比例为7:3

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

步骤3：在应用梯度下降法时应保证各特征值相差不大。观察下面数据集特征均值及方差

x1 = x.mean(axis = 0) # mean代表均值, axis代表垂直方向，就是每个列的数据集(每个特征就是一列)
x2 = x.var(axis = 0) # var代表方差

步骤4：由于其中一些的特征值差别较大，需要用sklearn中的StandardScaler函数对各个特征值进行缩放

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
ss1 = ss.fit(x_train) # fit用于计算训练数据的均值和方差, 后面会用均值和方差来转换训练数据

print(ss1): 结果是StandardScaler(copy=True, with_mean=True, with_std=True)
1、sklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True)这个函数用于给数据进行去均值和方差归一化处理
2、copy：如果为false,就会用归一化的值替代原来的值;如果被标准化的数据不是np.array或scipy.sparse CSR matrix, 原来的数据还是被copy而不是被替代
3、with_std：boolean类型，默认为True，表示将数据方差规范到1
4、with_mean：boolean类型，默认为True，表示将数据均值规范到0
总结：这里是用于标准化，将数据的方差规范到1，均值规范到0，实际上就是标准正态分布的方差和均值

关于StandScaler中fit、transform区别的解释文章
 Sklearn之数据预处理——StandardScaler，提到归一化的方法

2021 Nqq

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python机器学习算法 —— 回归

∇J(w)=1N∑i=kk+N(wTxi−yi)xi\nabla J(w)=\frac{1}{N} \sum_{i=k}^{k+N}\left(w^{\mathrm{T}} x_{i}-y_{i}\right) x_{i}∇J(w)=N1i=k∑k+N(wTxi−yi)xi小批量梯度下降算法的参数更新公式为:w:=w−η1N∑i=kk+N(wTxi−yi)xiw:=w-\eta \frac{1}{N} \sum_{i=k}^{k+N}\left(w^{\mathrm{T}} x_{i}-
复制链接

扫一扫