多远线性回归代码-波士顿房价问题

对于波士顿房间这种多元线性回归问题,完成了一版代码。
在网上搜索了很多波士顿房价数据,发现免费下载的多是data格式,txt格式,方便大家敲码,我转成了excel格式并且上传到csdn。代码随便拿,整理数据不易。发到csdn给大家做练习用,我也顺便攒点积分。希望大家理解。
https://download.csdn.net/download/weixin_40983190/11832951
下面这段代码是完整的可运行代码,注释应该是相当清楚了。另外有几点需要特别说明的
1、数据预处理部分由于下载的房价中位数中有部分数据显示为空,采用平均房价填补了这部分空数据
2、损失韩式还是用来均方差,通过训练发现40步左右就可以下降到29左右,而且后续改善不明显,我自己的机器比较渣,大家可以多试试其他超参数
3、不同于12个因素影响版本的波士顿房价数据,本例使用的是13个因素
4、本例还是用单例来做的,可以用批量来修改,但是对这样的样本规模,意义不大
5、项目添加了tensorboard图,默认生成的数据文件放在D:\log下

#波士顿房价问题是标准的多元线性回归问题
#波士顿房价数据整理好后放在本地
import os
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn import preprocessing

#读取boston房价数据,我保存在当前目录下的data文件夹下
data_file_path = "data/boston_price.xlsx"

#使用pandas来处理数据
df_data = pd.read_excel(data_file_path)
'''
波士顿房价表头说明,供13个特征参数和一个输出,且没有空值
CRIM:城镇人均犯罪率
ZN:住宅用地所占比例,25000英尺
INDUS:城镇中非商业用地的所占比例
CHAS:查尔斯和虚拟变量,用于恢复分析
NOX:环保指标
RM:每栋住宅的房间数
AGE1940年以前建成的自主单位的比例
DIS:距离五个波士顿就业中心的加权距离
RAD:距离高速公路的遍历指数
TAX:每一万美元的不动产税率
PTRATIO:城镇中教师学生比率
B:城镇中黑人比率
LSTAT:地区有多少百分比的房东属于是低收入阶层
MEDV:自住房屋房价的中位数
'''

#定义预处理函数
def prepare_date(df_data):
	#将数据表中的空值使用平均值填充
	medv_mean = df_data['MEDV'].mean()
	df_data['MEDV'] = df_data['MEDV'].fillna(medv_mean)
	#将数据转化为多维数组
	ndarray = df_data.values
	#获取特征值0~13列是特征值
	features = ndarray[:,:13]
	label = ndarray[:,13:]
	#将特征值标准化
	minmax_scale = preprocessing.MinMaxScaler(feature_range = (0,1))
	norm_features = minmax_scale.fit_transform(features)
	return norm_features,label

#将节点使用tensorboard展示出来
tf.reset_default_graph()  #清空之前的计算图

#定义两个变量,也就是要求的变量
#其中w是一个13*1维矩阵
w = tf.Variable(tf.random_normal([13,1],stddev=0.01),name='w')
b = tf.Variable(1.0,name='b')

#给出预处理后的数据
x_data,y_data = prepare_date(df_data)
print(y_data)

#定义模型,线性模型
def model(x,w,b):
	return tf.matmul(tf.cast(x,tf.float32),w)+b

#定义预测操作节点
pred = model(x_data,w,b)

#定义均方差损失函数
loss_function = tf.reduce_mean(tf.pow(y_data-pred,2))

#定义两个占位符
x = tf.placeholder(tf.float64,[None,13],name="x")
y = tf.placeholder(tf.float64,[1,1],name="y")

#定义超参数
train_epochs = 100 #迭代轮数
learning_rate = 0.1 #学习率

#创建优化器
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)

#申明一个会话,并启动
sess = tf.InteractiveSession()
init = tf.global_variables_initializer() #初始化变量节点
sess.run(init)

#迭代训练网络
for epoch in range(train_epochs):
	loss_sum = 0.0 #记录损失值
	for xs,ys in zip(x_data,y_data):
		#将张量变为矩阵
		xs = xs.reshape(1,13)
		ys = ys.reshape(1,1)
		#将数据取出并传入到占位符中
		_,loss = sess.run([optimizer,loss_function],feed_dict={x:xs,y:ys})
		loss_sum=loss_sum+loss;	#统计损失函数总和
	#为防止假性训练成果,打乱数据顺序
	from sklearn.utils import shuffle
	x_data,y_data = shuffle(x_data,y_data)
	b0temp = b.eval(session = sess)
	w0temp = w.eval(session = sess)
	loss_average = loss_sum/len(y_data)
	#每训练10步做一次打印
	if (epoch%10 == 0):
		print("epoch = ",epoch+1,"loss=",loss_average,"b=",b0temp,"w=",w0temp)

#训练结束将w和b打印出来下来
print("The boston_price is :",sess.run(w),sess.run(b))

#将计算图日志保存,用以tensorBoard显示
logdir = 'D:\log'
#使用writer写入
writer = tf.summary.FileWriter(logdir,tf.get_default_graph())
writer.close()

训练出的损失函数在29左右就收敛了,超参数选择100,0.1
在这里插入图片描述运行tensorboard --logdir=D:\log启动tensorboad
在这里插入图片描述进入 http://LAPTOP-0AIT3G5I:6006/查看节点流图
在这里插入图片描述

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大牛眼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值