从本部分开始,从头研究机器学习内容,并尽可能详细的介绍各种机器学习算法,尽可能做到完善,详细,明确。
线性回归算法
1.介绍
以一元一次函数为研究对象,形如y=wx+b
,若给出(x,y)
的一系列值,期望得到参数w,b
的值,这里使用得工具为python
及相关库,如numpy,pandas
等。
2.引入封装好的库
import numpy as np
import matplotlib.pyplot as plt
3.生成数据
data = [] # 保存样本集的列表
for i in range(100): # 循环采样100个点
x = np.random.uniform(-10., 10.) # 随机采样输入x
eps = np.random.normal(0., 0.1) # 采样高斯噪声
y = 1.477 * x + 0.089 + eps # 得到模型输出
data.append([x, y]) # 保存样本点
data = np.array(data) # 转换为2D numpy数组
# print(len(data)) # 输出为100
# print(data[:,0],data[:,1]) # 其中x=data[:,0],y=data[:1]
4.散点图可视化
# 散点图
# 绘图
# 1. 确定画布
plt.figure(figsize=(8, 4)) # figsize:确定画布大小
# 2. 绘图
plt.scatter(data[:,0], # 横坐标
data[:,1], # 纵坐标
c='red', # 点的颜色
label='scatter gram') # 标签 即为点代表的意思
# 3.展示图形
plt.legend() # 显示图例(标签)
plt.show() # 显示所绘图形
5.定义MSE、梯度下降等
def mse(b, w, points):
# 根据当前w,b参数计算方差损失
totalError = 0
for i in range(0, len(points)): # 循环迭代所有点
x = points[i, 0] # 获取i号点的输出x
y = points[i, 1] # 获取i号点的输出y
totalError += (y - (w * x + b)) ** 2 # 计算差的平方,并累加
return totalError/float(len(points)) # 将累加的误差求平均,得到均方差
def step_gradient(b_current, w_current, points, lr): # 计算误差函数在所有点上的导数,并更新 w,b
b_gradient = 0
w_gradient = 0
M = float(len(points)) # 总样本数
for i in range(0,</