多元线性回归问题——波士顿房价预测

最新推荐文章于 2024-04-03 22:25:38 发布

12Struggle

最新推荐文章于 2024-04-03 22:25:38 发布

阅读量4.1k

点赞数 3

分类专栏：深度学习 tensorflow 文章标签：深度学习 tensorflow python

本文链接：https://blog.csdn.net/qq_45627332/article/details/119616655

版权

深度学习同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

tensorflow

8 篇文章 0 订阅

订阅专栏

多元线性回归问题——波士顿房价预测

波士顿房价预测数据集包括506个样本，每个样本包括12个特征变量和该地区的平均房价（单价）显然和多个特征变量相关，不是单变量线性回归（一元线性回归）问题，选择多个特征变量来建立线性方程，这就是多变量线性回归（多元线性回归）问题

数据集的解读：

CRIM：城镇人均犯罪率

ZN：住宅用地超过25000sq.ft.比例

INDUS：城镇非零售商用土地的比例

CHAS：边界时河流为1，否则为0

NOX：一氧化氮浓度

RM：住在平均房间数

AGE:1940年之前建成的自用房屋比例

DIS：到波士顿5个中心区域的加权距离

RAD：辐射性公路的靠近指数

TAX：每10000美元的全值财产税率

PTRATIO：城镇师生比例

LSTAT：人口中地位低下者的比例

MEDV：自住房的平均房价，单位：千美元

一、读取数据

通过pandas读取数据文件，列出统计概述

shuffle洗牌函数。-

%matplotlib notebook

import tensorflow as tf
import matplotlib.pyplot as plt  #载入matplotlib
import numpy as np  #载入numpy，高性能的实现二维或多维数组的处理和计算
import pandas as pd  #载入pandas，快速读取数据文件 
from sklearn.utils import shuffle

#读取数据文件
df = pd.read_csv("C:/Users/grid/Desktop/深度学习/data/boston.csv",header=0)
#显示数据摘要描述信息
print(df.describe())

二、数据准备

载入本实例所需要的数据

#获取df的值
df=df.values
#把df转换为np的数组格式
df=np.array(df)
#x_data为前12列特征数据(从0开始到12列，不包括12)
x_data=df[:,:12]
#y_data 为最后1列标签数据
y_data=df[:,12]

#显示数据
print(x_data,'\n shape=',x_data.shape)
print(y_data,'\n shape=',y_data.shape)

三、构建模型

多元线性回归模型：

房价和多个特征变量相关，本讲尝试使用多元线性回归建模 Y =x1xw1+x2xw2,+x12xw12+b

定义训练数据占位符（定义特征数据和标签数据的占位符）

shape中的None表示行的数量未知，在实际训练时决定一次代入多少行样本。

x = tf.placeholder(tf.float32,[None,12],name= "X")#12个特征数据（12列）
y = tf.placeholder(tf.float32,[None,1],name="Y")#1个标签数据（1列

定义模型结构

定义模型函数

#定义了一个命名空间
with tf.name_scope("Model"):
	#w初始化值为shape=（12，1的随机数
	w = tf.Variable(tf.random_normal([12,1],stddev=0.01),name="W")
	
	#b初始值为1.0
	b = tf.Variable(1.0,name="b")
	
	#w和x是矩阵相乘，用matmul，不能用mutiply或者*
	def model(x,w,b):
		return tf.matmul(x,w)+b
	#预测计算操作，前向计算节点
	pred = model(x,w,b)

四、训练模型

定义均方差损失函数

#定义损失函数
with tf.name_scope("LossFunction"):
	loss_function = tf.reduce_mean(tf.pow(y-pred,2))#均方误差

选择优化器

#迭代次数（训练轮数）
train_epochs=50
#学习率,建议设置在0.1-0.5之间
learning_rate=0.01
#创建优化器：梯度下降
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)

声明会话

#声明会话
sess = tf.Session()
#定义初始化变量的操作
init= tf.global_variables_initializer()

启动会话

#启动会话
sess.run(init)

迭代训练

#迭代训练
for epoch in range(train_epochs):
	loss_sum=0.0
	for xs,ys in zip (x_data,y_data):
		xs=xs.reshape(1,12)
		ys=ys.reshape(1,1)
		-,loss=sess.run([optimizer,loss_function],feed_dict={x:xs,y:ys})
		loss_sum = loss_sum+loss
#打乱数据顺序
	xvalues,yvalues =shuffle(x_data,y_data)
	b0temp = b.eval(session=sess)
	w0temp=w.eval(session=sess)
	loss_average=loss_sum/len(y_data)
	print("epoch=",epoch+1,"loss=",loss_average,"b=",b0temp,"w=",w0temp)

五、探究训练结果异常的原因

要考虑不同特征值取值范围大小的影响：

解决方案：归一化。

特征值/（特征值最大值-特征值最小值）

特征数据归一化

#对特征数据[0到11]列做（0-1）归一化
for i in range(12):
	df[:,i]=df[:,i]/(df[:,i].max()-df[:,i].min())
#x_data为归一化后的前12列特征数据
x_data=df[:,:12]
#y_data为最后1列标签数据
y_data=df[:,12]

六、模型训练

模型一般应该用来预测新的样本值

但是本例506条数据都用来训练了，暂时没有新的数据

n=348 #指定一条来看看效果
x_test = x_data[n]

x_test=x_test.reshape(1,12)
predict=sess.run(pred,feed_dict={x:x_test})
print("预测值：%f" % predict)

target= y_data[n]
print("标签值：%f" % target)

采用随机数版本

n=np.random.randint(506)#随机确定一条来看看效果
print(n)
x_test = x_data[n]

x_test = x_test.reshape(1,12)
predict =sess.run(pred,feed_dict={x:x_test})
print("预测值：%f" % predict)

target= y_data[n]
print("标签值：%f" % target)

波士顿房价版本一

%matplotlib notebook

import tensorflow as tf
import matplotlib.pyplot as plt  #载入matplotlib
import numpy as np  #载入numpy，高性能的实现二维或多维数组的处理和计算
import pandas as pd  #载入pandas，快速读取数据文件 
from sklearn.utils import shuffle

#读取数据文件
df = pd.read_csv("C:/Users/grid/Desktop/深度学习/data/boston.csv",header=0)
#显示数据摘要描述信息
#print(df.describe())

#获取df的值
df=df.values
#把df转换为np的数组格式
df=np.array(df)
#x_data为前12列特征数据(从0开始到12列，不包括12)
x_data=df[:,:12]
#y_data 为最后1列标签数据
y_data=df[:,12]

#显示数据
#print(x_data,'\n shape=',x_data.shape)
#print(y_data,'\n shape=',y_data.shape)

#对特征数据[0到11]列做（0-1）归一化
for i in range(12):
	df[:,i]=df[:,i]/(df[:,i].max()-df[:,i].min())
#x_data为归一化后的前12列特征数据
x_data=df[:,:12]
#y_data为最后1列标签数据
y_data=df[:,12]

#构建模型
x = tf.placeholder(tf.float32,[None,12],name= "X")#12个特征数据（12列）
y = tf.placeholder(tf.float32,[None,1],name="Y")#1个标签数据（1列）
#定义了一个命名空间
with tf.name_scope("Model"):
	#w初始化值为shape=（12，1的随机数
	w = tf.Variable(tf.random_normal([12,1],stddev=0.01),name="W")
	
	#b初始值为1.0
	b = tf.Variable(1.0,name="b")
	
	#w和x是矩阵相乘，用matmul，不能用mutiply或者*
	def model(x,w,b):
		return tf.matmul(x,w)+b
	#预测计算操作，前向计算节点
	pred=model(x,w,b)
	 
#训练模型
#定义损失函数
with tf.name_scope("LossFunction"):
	loss_function = tf.reduce_mean(tf.pow(y-pred,2))#均方误差

#迭代次数（训练轮数）
train_epochs=50
#学习率,建议设置在0.1-0.5之间
learning_rate=0.01
#创建优化器：梯度下降
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)
#声明会话
sess = tf.Session()
#定义初始化变量的操作
init= tf.global_variables_initializer()
#启动会话
sess.run(init)
#迭代训练
for epoch in range(train_epochs):
	loss_sum=0.0
	for xs,ys in zip (x_data,y_data):
		xs=xs.reshape(1,12)
		ys=ys.reshape(1,1)
		_,loss=sess.run([optimizer,loss_function],feed_dict={x:xs,y:ys})
		loss_sum = loss_sum+loss
#打乱数据顺序
	xvalues,yvalues =shuffle(x_data,y_data)
	b0temp = b.eval(session=sess)
	w0temp=w.eval(session=sess)
	loss_average=loss_sum/len(y_data)
	print("epoch=",epoch+1,"loss=",loss_average,"b=",b0temp,"w=",w0temp)
	
	
#预测结果	
n=np.random.randint(506)#随机确定一条来看看效果
print(n)
x_test = x_data[n]

x_test = x_test.reshape(1,12)
predict =sess.run(pred,feed_dict={x:x_test})
print("预测值：%f" % predict)

target= y_data[n]
print("标签值：%f" % target)

版本二可视化训练过程中的损失值

只是每轮训练之后添加一个这一轮的loss平均值

%matplotlib notebook

import tensorflow as tf
import matplotlib.pyplot as plt  #载入matplotlib
import numpy as np  #载入numpy，高性能的实现二维或多维数组的处理和计算
import pandas as pd  #载入pandas，快速读取数据文件 
from sklearn.utils import shuffle

#读取数据文件
df = pd.read_csv("C:/Users/grid/Desktop/深度学习/data/boston.csv",header=0)
#显示数据摘要描述信息
#print(df.describe())

#获取df的值
df=df.values
#把df转换为np的数组格式
df=np.array(df)
#x_data为前12列特征数据(从0开始到12列，不包括12)
x_data=df[:,:12]
#y_data 为最后1列标签数据
y_data=df[:,12]

#显示数据
#print(x_data,'\n shape=',x_data.shape)
#print(y_data,'\n shape=',y_data.shape)

#对特征数据[0到11]列做（0-1）归一化
for i in range(12):
	df[:,i]=df[:,i]/(df[:,i].max()-df[:,i].min())
#x_data为归一化后的前12列特征数据
x_data=df[:,:12]
#y_data为最后1列标签数据
y_data=df[:,12]

#构建模型
x = tf.placeholder(tf.float32,[None,12],name= "X")#12个特征数据（12列）
y = tf.placeholder(tf.float32,[None,1],name="Y")#1个标签数据（1列）
#定义了一个命名空间
with tf.name_scope("Model"):
	#w初始化值为shape=（12，1的随机数
	w = tf.Variable(tf.random_normal([12,1],stddev=0.01),name="W")
	
	#b初始值为1.0
	b = tf.Variable(1.0,name="b")
	
	#w和x是矩阵相乘，用matmul，不能用mutiply或者*
	def model(x,w,b):
		return tf.matmul(x,w)+b
	#预测计算操作，前向计算节点
	pred=model(x,w,b)
	 
#训练模型
#定义损失函数
with tf.name_scope("LossFunction"):
	loss_function = tf.reduce_mean(tf.pow(y-pred,2))#均方误差

#迭代次数（训练轮数）
train_epochs=50
#学习率,建议设置在0.1-0.5之间
learning_rate=0.01
#创建优化器：梯度下降
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)
#声明会话
sess = tf.Session()
#定义初始化变量的操作
init= tf.global_variables_initializer()
#启动会话
sess.run(init)


loss_list=[]#用于保存loss值的列表
#迭代训练
for epoch in range(train_epochs):
	loss_sum=0.0
	for xs,ys in zip (x_data,y_data):
		xs=xs.reshape(1,12)
		ys=ys.reshape(1,1)
		_,loss=sess.run([optimizer,loss_function],feed_dict={x:xs,y:ys})
		loss_sum = loss_sum+loss
#打乱数据顺序
	xvalues,yvalues =shuffle(x_data,y_data)
	b0temp = b.eval(session=sess)
	w0temp=w.eval(session=sess)
	loss_average=loss_sum/len(y_data)
	print("epoch=",epoch+1,"loss=",loss_average,"b=",b0temp,"w=",w0temp)
	
loss_list.append(loss_average)#每轮添加一次
#打印可视化损失值
plt.plot(loss_list)

#预测结果	
n=np.random.randint(506)#随机确定一条来看看效果
print(n)
x_test = x_data[n]

x_test = x_test.reshape(1,12)
predict =sess.run(pred,feed_dict={x:x_test})
print("预测值：%f" % predict)

target= y_data[n]
print("标签值：%f" % target)

版本三：加上TensorBoard可视化代码

%matplotlib notebook

import tensorflow as tf
import matplotlib.pyplot as plt  #载入matplotlib
import numpy as np  #载入numpy，高性能的实现二维或多维数组的处理和计算
import pandas as pd  #载入pandas，快速读取数据文件 
from sklearn.utils import shuffle

#读取数据文件
df = pd.read_csv("C:/Users/grid/Desktop/深度学习/data/boston.csv",header=0)
#显示数据摘要描述信息
#print(df.describe())

#获取df的值
df=df.values
#把df转换为np的数组格式
df=np.array(df)
#x_data为前12列特征数据(从0开始到12列，不包括12)
x_data=df[:,:12]
#y_data 为最后1列标签数据
y_data=df[:,12]

#显示数据
#print(x_data,'\n shape=',x_data.shape)
#print(y_data,'\n shape=',y_data.shape)

#对特征数据[0到11]列做（0-1）归一化
for i in range(12):
	df[:,i]=df[:,i]/(df[:,i].max()-df[:,i].min())
#x_data为归一化后的前12列特征数据
x_data=df[:,:12]
#y_data为最后1列标签数据
y_data=df[:,12]

#构建模型
x = tf.placeholder(tf.float32,[None,12],name= "X")#12个特征数据（12列）
y = tf.placeholder(tf.float32,[None,1],name="Y")#1个标签数据（1列）
#定义了一个命名空间
with tf.name_scope("Model"):
	#w初始化值为shape=（12，1的随机数
	w = tf.Variable(tf.random_normal([12,1],stddev=0.01),name="W")
	
	#b初始值为1.0
	b = tf.Variable(1.0,name="b")
	
	#w和x是矩阵相乘，用matmul，不能用mutiply或者*
	def model(x,w,b):
		return tf.matmul(x,w)+b
	#预测计算操作，前向计算节点
	pred=model(x,w,b)
	 
#训练模型
#定义损失函数
with tf.name_scope("LossFunction"):
	loss_function = tf.reduce_mean(tf.pow(y-pred,2))#均方误差

#迭代次数（训练轮数）
train_epochs=50
#学习率,建议设置在0.1-0.5之间
learning_rate=0.01
#创建优化器：梯度下降
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)
#声明会话
sess = tf.Session()
#定义初始化变量的操作
init= tf.global_variables_initializer()

#为TensorBoard可视化准备数据
 #设置日志存储目录
logdir="C:/Users/grid/Desktop/log"
 #创建一个操作，用于记录损失值loss，后面在TensorNBoard中SCALARS栏可见 sum_loss_op = tf.summary.scalar("loss",loss_function)
 #把所有需要记录摘要日志文件的合并，方便一次性写入
merged = tf.summary.merge_all()
 
#启动会话
sess.run(init)

#创建摘要的文件写入器（File Writer）
writer=tf.summary.FileWriter(logdir,sess.graph)

#迭代训练
for epoch in range(train_epochs):
	loss_sum=0.0
	for xs,ys in zip (x_data,y_data):
		xs=xs.reshape(1,12)
		ys=ys.reshape(1,1)
		_, summary_str, loss = sess.run([optimizer,sum_loss_op,loss_function],feed_dict={x:xs,y:ys})
		writer.add_summary(summary_str,epoch)
		loss_sum = loss_sum+loss
#打乱数据顺序
	xvalues,yvalues =shuffle(x_data,y_data)
	b0temp = b.eval(session=sess)
	w0temp=w.eval(session=sess)
	loss_average=loss_sum/len(y_data)
	print("epoch=",epoch+1,"loss=",loss_average,"b=",b0temp,"w=",w0temp)
	
	
#预测结果	
n=np.random.randint(506)#随机确定一条来看看效果
print(n)
x_test = x_data[n]

x_test = x_test.reshape(1,12)
predict =sess.run(pred,feed_dict={x:x_test})
print("预测值：%f" % predict)

target= y_data[n]
print("标签值：%f" % target)

12Struggle

关注

3
点赞
踩
54

收藏

觉得还不错? 一键收藏
0
评论
多元线性回归问题——波士顿房价预测

多元线性回归问题——波士顿房价预测波士顿房价预测数据集包括506个样本，每个样本包括12个特征变量和该地区的平均房价（单价）显然和多个特征变量相关，不是单变量线性回归（一元线性回归）问题，选择多个特征变量来建立线性方程，这就是多变量线性回归（多元线性回归）问题数据集的解读：CRIM：城镇人均犯罪率ZN：住宅用地超过25000sq.ft.比例INDUS：城镇非零售商用土地的比例CHAS：边界时河流为1，否则为0NOX：一氧化氮浓度RM：住在平均房间数AGE:1940年之前建成的自用房屋比例
复制链接

扫一扫