项目场景:
使用tf.keras实现简单的线性回归
问题描述:
f(x) = ax + b,我们使用f(x)这个函数来映射输入特征和输出值
原因分析:
目标:
使用梯度下降算法预测函数f(x)与真实值之间的整体误差最小,如何定义误差最小呢?
损失函数:
使用均方差作为作为成本函数,也就是 预测值和真实值之间差的平方取均值
优化的目标(y代表实际的收入):
找到合适的 a 和 b ,使得 (f(x) - y)²越小越好
注意:现在求解的是参数 a 和 b
如何优化:
使用梯度下降算法
代码:
import tensorflow as tf
import pandas as pd
import matplotlib.pyplot as plt
tf.__version__
#读入数据
data = pd.read_csv("./xxx/xxx/xx.csv")
data
plt.scatter(data.Education, data.Income)
#构建训练数据
x = data.Education
y = data.Income
#建立模型
model = tf.keras.Sequential()
model.add(tf.keras.layers.Dense(1, input_shape=(1,)))
model.summary()
#利用梯度下降,训练模型
model.compile(optimizer='adam', loss='mse')
history = model.fit(x, y, epochs=50000)
#预测
model.predict(pd.Series([20])
注意:不能预测时不能直接输入20, 因为训练输入x时是pd.Series
多层感知器:
f(x) = ax1 + bx2+c,我们使用f(x)这个函数来映射输入特征和输出值
代码:
#读入数据
data = pd.read_csv('dataset/xxx.csv')
#构建训练数据
x = data.iloc[:,1:-1] #除去最后一列的所有数据
y = data.iloc[:, -1] #最后一列
#建立模型
model = tf.keras.Sequential()
model.add(tf.keras.layers.Dense(10, input_shape=(3,), activation='relu')
model.add(tf.keras.layers.Dense(1)
model.summary()
#编译模型
model.compile(opitmize='adam', loss='mse')
#训练模型
model.fit(x, y, epochs=100)
#预测数据
test= data.iloc[:10, 1:-1]
pred = model.predict(test)
pred
参考文献:
https://study.163.com/course/introduction/1004573006.htm