多远线性回归代码-波士顿房价问题

最新推荐文章于 2023-02-26 22:34:35 发布

大牛眼

最新推荐文章于 2023-02-26 22:34:35 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习多元线性回归文章标签：波士顿房价

本文链接：https://blog.csdn.net/weixin_40983190/article/details/102163888

版权

机器学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

多元线性回归

2 篇文章 0 订阅

订阅专栏

对于波士顿房间这种多元线性回归问题，完成了一版代码。
在网上搜索了很多波士顿房价数据，发现免费下载的多是data格式，txt格式，方便大家敲码，我转成了excel格式并且上传到csdn。代码随便拿，整理数据不易。发到csdn给大家做练习用，我也顺便攒点积分。希望大家理解。
https://download.csdn.net/download/weixin_40983190/11832951
下面这段代码是完整的可运行代码，注释应该是相当清楚了。另外有几点需要特别说明的
1、数据预处理部分由于下载的房价中位数中有部分数据显示为空，采用平均房价填补了这部分空数据
2、损失韩式还是用来均方差，通过训练发现40步左右就可以下降到29左右，而且后续改善不明显，我自己的机器比较渣，大家可以多试试其他超参数
3、不同于12个因素影响版本的波士顿房价数据，本例使用的是13个因素
4、本例还是用单例来做的，可以用批量来修改，但是对这样的样本规模，意义不大
5、项目添加了tensorboard图，默认生成的数据文件放在D:\log下

#波士顿房价问题是标准的多元线性回归问题
#波士顿房价数据整理好后放在本地
import os
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn import preprocessing

#读取boston房价数据，我保存在当前目录下的data文件夹下
data_file_path = "data/boston_price.xlsx"

#使用pandas来处理数据
df_data = pd.read_excel(data_file_path)
'''
波士顿房价表头说明，供13个特征参数和一个输出，且没有空值
CRIM：城镇人均犯罪率
ZN：住宅用地所占比例，25000英尺
INDUS：城镇中非商业用地的所占比例
CHAS：查尔斯和虚拟变量，用于恢复分析
NOX：环保指标
RM：每栋住宅的房间数
AGE：1940年以前建成的自主单位的比例
DIS：距离五个波士顿就业中心的加权距离
RAD：距离高速公路的遍历指数
TAX：每一万美元的不动产税率
PTRATIO：城镇中教师学生比率
B：城镇中黑人比率
LSTAT：地区有多少百分比的房东属于是低收入阶层
MEDV：自住房屋房价的中位数
'''

#定义预处理函数
def prepare_date(df_data):
	#将数据表中的空值使用平均值填充
	medv_mean = df_data['MEDV'].mean()
	df_data['MEDV'] = df_data['MEDV'].fillna(medv_mean)
	#将数据转化为多维数组
	ndarray = df_data.values
	#获取特征值0~13列是特征值
	features = ndarray[:,:13]
	label = ndarray[:,13:]
	#将特征值标准化
	minmax_scale = preprocessing.MinMaxScaler(feature_range = (0,1))
	norm_features = minmax_scale.fit_transform(features)
	return norm_features,label

#将节点使用tensorboard展示出来
tf.reset_default_graph()  #清空之前的计算图

#定义两个变量,也就是要求的变量
#其中w是一个13*1维矩阵
w = tf.Variable(tf.random_normal([13,1],stddev=0.01),name='w')
b = tf.Variable(1.0,name='b')

#给出预处理后的数据
x_data,y_data = prepare_date(df_data)
print(y_data)

#定义模型，线性模型
def model(x,w,b):
	return tf.matmul(tf.cast(x,tf.float32),w)+b

#定义预测操作节点
pred = model(x_data,w,b)

#定义均方差损失函数
loss_function = tf.reduce_mean(tf.pow(y_data-pred,2))

#定义两个占位符
x = tf.placeholder(tf.float64,[None,13],name="x")
y = tf.placeholder(tf.float64,[1,1],name="y")

#定义超参数
train_epochs = 100 #迭代轮数
learning_rate = 0.1 #学习率

#创建优化器
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)

#申明一个会话，并启动
sess = tf.InteractiveSession()
init = tf.global_variables_initializer() #初始化变量节点
sess.run(init)

#迭代训练网络
for epoch in range(train_epochs):
	loss_sum = 0.0 #记录损失值
	for xs,ys in zip(x_data,y_data):
		#将张量变为矩阵
		xs = xs.reshape(1,13)
		ys = ys.reshape(1,1)
		#将数据取出并传入到占位符中
		_,loss = sess.run([optimizer,loss_function],feed_dict={x:xs,y:ys})
		loss_sum=loss_sum+loss;	#统计损失函数总和
	#为防止假性训练成果，打乱数据顺序
	from sklearn.utils import shuffle
	x_data,y_data = shuffle(x_data,y_data)
	b0temp = b.eval(session = sess)
	w0temp = w.eval(session = sess)
	loss_average = loss_sum/len(y_data)
	#每训练10步做一次打印
	if (epoch%10 == 0):
		print("epoch = ",epoch+1,"loss=",loss_average,"b=",b0temp,"w=",w0temp)

#训练结束将w和b打印出来下来
print("The boston_price is :",sess.run(w),sess.run(b))

#将计算图日志保存，用以tensorBoard显示
logdir = 'D:\log'
#使用writer写入
writer = tf.summary.FileWriter(logdir,tf.get_default_graph())
writer.close()

训练出的损失函数在29左右就收敛了，超参数选择100,0.1
在这里插入图片描述运行tensorboard --logdir=D:\log启动tensorboad
进入 http://LAPTOP-0AIT3G5I:6006/查看节点流图

大牛眼

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
多远线性回归代码-波士顿房价问题

对于波士顿房间这种多元线性回归问题，完成了一版代码。在网上搜索了很多波士顿房价数据，发现免费下载的多是data格式，txt格式，方便大家敲码，我转成了excel格式并且上传到csdn。代码随便拿，整理数据不易。发到csdn给大家做练习用，我也顺便攒点积分。希望大家理解。https://download.csdn.net/download/weixin_40983190/11832951下面这...
复制链接

扫一扫