机器学习-线性回归问题

机器学习之线性回归

在B站看了吴恩达的线性回归内容,从网上也找到了实现代码,自己进行学习模拟,写出来一份线性回归的代码

1.1 线性回归

我的认为就是在一组离散的数据中画一条线,使这条线对所有点的代价总和最小,找到的这条线就可以在一定程度上对数据进行预测,是一种回归问题。

1.2 代价函数

在这里插入图片描述
在进行代价计算时,其实就是所有存在的数据距离画出来的这条线距离的平方的总和,平方是为了防止出现负值的情况。接下来的目的就是找到一组值使得代价函数最小,也是最终画出来这条线的两个参数。例如 y = ax + b,也就是找到最终的a和b

1.3 梯度下降

在这里插入图片描述
上面的代价函数其实就是一个二次函数,最好的结果就是其最小值点处,可以用梯度下降的办法寻找这个点。赋予其一个alpha,最好不要太大,分别不断的减去对两个参数方向上的偏导,aplha选好最终可以收敛到最小处。

1.4 code

# -*- coding: utf-8 -*-
# @Time : 2022/4/21 15:13
# @Author : Yao Guoliang
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# the function use computer cost
# X is the all of dataset's x, y is the all of dataset'y, theta is the two variables of a function once
# pass value by mat
def Cost(X, y, theta) :
    return np.sum(np.power(((X * theta.T) - y), 2)) / (len(X) * 2)


data = pd.read_csv('./data/ex1data1.txt', header=None, names=['Population', 'Profit'])
# data = (data - data.mean()) / data.std() #对数据进行归一化
# print(data)
"""
print(data.describe())
data.plot(kind='scatter', x='Population', y='Profit', figsize=(8,5))
plt.show()
"""
# 插入一列1 主要用来进行计算损失函数时的方便, 直接和theta两个参数相乘
# y = ax + b形式即为 y = a * x + b * 1   插入一列1 就可以直接乘了 很方便
# 还有就是计算梯度下降时候的使用
data.insert(1, 'ones', 1)
# print(data)

clos = data.shape[1] # 数据集有多少列
X = data.iloc[:, : clos - 1] # 取前 clos - 1列,用来计算代价函数,最后一列是真实的y
y = data.iloc[:, clos - 1 : clos]
X = np.mat(X.values)
y = np.mat(y.values)
# print(y)

# 初始将一次函数的两参数都设置为0
# theta[0] 代表a, theta[1]代表b  方程形式 y = ax + b
theta = np.matrix([0, 0])
print(theta.shape)
# 计算初始的代价函数
Cost(X, y, theta)

# 梯度下降, 其实也就是两个参数减去各自偏导方向变化的一个倍数, 这个倍数可以自己定义
def gradientDescent(X, y, theta, alpha, epoch) :
    # alpha就是进行梯度下降时候的倍数, epoch是迭代的次数
    tempMat = np.matrix(np.zeros(theta.shape)) # 创建一个一行两列的临时矩阵
    cost = np.zeros(epoch) # 用来记录每次梯度下降后的代价值
    m = X.shape[0] # 一共有多少数据
    for i in range(epoch) :
        tempMat = theta - (alpha / m) * (X * theta.T - y).T * X
        theta = tempMat
        cost[i] = Cost(X, y, theta)
    return theta, cost

alpha = 0.01
epoch = 1000
finally_theta , cost = gradientDescent(X, y, theta, alpha, epoch)
x = np.linspace(data.Population.min(), data.Population.max(), 100)
f = (finally_theta[0, 0] * x) + finally_theta[0, 1]

fig, ax = plt.subplots(figsize=(6, 4))  # 绘出图片比例为6:4
ax.plot(x, f, 'r', label='Prediction')
ax.scatter(data.Population, data.Profit, label='Traning Data')
ax.legend(loc=2)  # 将上面的label放置在图的哪里,2表示在左上角
ax.set_xlabel('Population')
ax.set_ylabel('Profit')
ax.set_title('Predicted Profit vs. Population Size')
plt.show()

fig, ax = plt.subplots(figsize=(8, 4))
ax.plot(np.arange(epoch), cost, 'r')  # np.arange()返回等差数组
ax.set_xlabel('Iterations')
ax.set_ylabel('Cost')
ax.set_title('Error vs. Training Epoch')
plt.show()

1.5 结果

在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值