机器学习-线性回归问题

在希望中挣扎

已于 2022-04-21 20:38:11 修改

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：机器学习

于 2022-04-21 20:24:57 首次发布

本文链接：https://blog.csdn.net/qq_43992721/article/details/124330669

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习之线性回归

在B站看了吴恩达的线性回归内容，从网上也找到了实现代码，自己进行学习模拟，写出来一份线性回归的代码

1.1 线性回归

我的认为就是在一组离散的数据中画一条线，使这条线对所有点的代价总和最小，找到的这条线就可以在一定程度上对数据进行预测，是一种回归问题。

1.2 代价函数

在这里插入图片描述
在进行代价计算时，其实就是所有存在的数据距离画出来的这条线距离的平方的总和，平方是为了防止出现负值的情况。接下来的目的就是找到一组值使得代价函数最小，也是最终画出来这条线的两个参数。例如 y = ax + b，也就是找到最终的a和b

1.3 梯度下降

在这里插入图片描述
上面的代价函数其实就是一个二次函数，最好的结果就是其最小值点处，可以用梯度下降的办法寻找这个点。赋予其一个alpha，最好不要太大，分别不断的减去对两个参数方向上的偏导，aplha选好最终可以收敛到最小处。

1.4 code

# -*- coding: utf-8 -*-
# @Time : 2022/4/21 15:13
# @Author : Yao Guoliang
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# the function use computer cost
# X is the all of dataset's x, y is the all of dataset'y, theta is the two variables of a function once
# pass value by mat
def Cost(X, y, theta) :
    return np.sum(np.power(((X * theta.T) - y), 2)) / (len(X) * 2)


data = pd.read_csv('./data/ex1data1.txt', header=None, names=['Population', 'Profit'])
# data = (data - data.mean()) / data.std() #对数据进行归一化
# print(data)
"""
print(data.describe())
data.plot(kind='scatter', x='Population', y='Profit', figsize=(8,5))
plt.show()
"""
# 插入一列1 主要用来进行计算损失函数时的方便， 直接和theta两个参数相乘
# y = ax + b形式即为 y = a * x + b * 1   插入一列1 就可以直接乘了 很方便
# 还有就是计算梯度下降时候的使用
data.insert(1, 'ones', 1)
# print(data)

clos = data.shape[1] # 数据集有多少列
X = data.iloc[:, : clos - 1] # 取前 clos - 1列，用来计算代价函数，最后一列是真实的y
y = data.iloc[:, clos - 1 : clos]
X = np.mat(X.values)
y = np.mat(y.values)
# print(y)

# 初始将一次函数的两参数都设置为0
# theta[0] 代表a, theta[1]代表b  方程形式 y = ax + b
theta = np.matrix([0, 0])
print(theta.shape)
# 计算初始的代价函数
Cost(X, y, theta)

# 梯度下降， 其实也就是两个参数减去各自偏导方向变化的一个倍数， 这个倍数可以自己定义
def gradientDescent(X, y, theta, alpha, epoch) :
    # alpha就是进行梯度下降时候的倍数， epoch是迭代的次数
    tempMat = np.matrix(np.zeros(theta.shape)) # 创建一个一行两列的临时矩阵
    cost = np.zeros(epoch) # 用来记录每次梯度下降后的代价值
    m = X.shape[0] # 一共有多少数据
    for i in range(epoch) :
        tempMat = theta - (alpha / m) * (X * theta.T - y).T * X
        theta = tempMat
        cost[i] = Cost(X, y, theta)
    return theta, cost

alpha = 0.01
epoch = 1000
finally_theta , cost = gradientDescent(X, y, theta, alpha, epoch)
x = np.linspace(data.Population.min(), data.Population.max(), 100)
f = (finally_theta[0, 0] * x) + finally_theta[0, 1]

fig, ax = plt.subplots(figsize=(6, 4))  # 绘出图片比例为6:4
ax.plot(x, f, 'r', label='Prediction')
ax.scatter(data.Population, data.Profit, label='Traning Data')
ax.legend(loc=2)  # 将上面的label放置在图的哪里，2表示在左上角
ax.set_xlabel('Population')
ax.set_ylabel('Profit')
ax.set_title('Predicted Profit vs. Population Size')
plt.show()

fig, ax = plt.subplots(figsize=(8, 4))
ax.plot(np.arange(epoch), cost, 'r')  # np.arange()返回等差数组
ax.set_xlabel('Iterations')
ax.set_ylabel('Cost')
ax.set_title('Error vs. Training Epoch')
plt.show()

1.5 结果

在这里插入图片描述

在希望中挣扎

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习-线性回归问题

机器学习之线性回归在B站看了吴恩达的线性回归内容，从网上也找到了实现代码，自己进行学习模拟，写出来一份线性回归的代码1.1 线性回归我的认为就是在一组离散的数据中画一条线，使这条线对所有点的代价总和最小，找到的这条线就可以在一定程度上对数据进行预测，是一种回归问题。1.2 代价函数![在这里插入图片描述](https://img-blog.csdnimg.cn/1157a46e6d3c4856b79ef0db41b34b9b.png)...
复制链接

扫一扫