波士顿房价预测python_多元线性回归—波士顿房价预测(版本一)

本文通过Python实现波士顿房价的多元线性回归预测,利用pandas进行数据预处理,TensorFlow构建模型并训练,讨论了特征归一化对模型稳定性的影响。
摘要由CSDN通过智能技术生成

背景:波士顿房价数据集包括506个样本,每个样本包括12个特征变量和该地区的平均房价。房价(单价)显然和多个特征变量相关,不是单变量线性回归(一元线性回归)问题;选择多个特征变量来建立线性方程,这就是多变量线性回归(多元线性回归)问题。

房价和多个特征变量相关,本案例尝试使用多元线性回归建模  Y=X1*W1+X2*W2+..+X12*W12+b

结果可以由不同特征的输入值和对应的权重相乘求和,加上偏置项计算求解,多变量线性方程可用矩阵运算表示。

一、数据读取

CRIM:城镇人均犯罪率                                                  AGE:1940年之前建成的自用房屋比例

ZN:住宅用地超过25000sq.ft.的比例                             DIS:到波士顿5个中心区域的加权距离

INDUS:城镇非零售商用土地的比例                              RAD:辐射性公路的靠近指数

CHAS:边界是河流为1,否则0                                      TAX:每10000美元的全值财产税率

NOX:一氧化氮浓度                                                        PTRATIO:城镇师生比例

RM:住宅平均房间数                                                       LSTAT:人口中地位低下者的比例

标签数据       MEDV:自住房的平均房价,单位:干美元

1.1通过pandas读取数据文件,列出统计概述(分析用)

importtensorflow as tfimportnumpy as npimportmatplotlib.pyplot as pltimportpandas as pdfrom sklearn.utils import shuffle #打乱样本

df = pd.read_csv("data/boston.csv", header=0)print(df.describe()) #线束数据摘要描述信息

View Code1

pandas是python提供的非常好用的数据分析模块,但是在使用pandas进行数据分析时,有时候需要查看打印的结果,当dataframe行数或者列数比较多的时候,打印结果总是有一些省略号,不能完整的看到数据的大致分布,比如最大值,最小值,等等,了解数据分布的区间有助于进行可视化和进一步分析。查看pandas的文档,这个问题可以通过pandas内置的set_option()方法解决,从文档的属性设置中可以看到,与显示的行数列数有关的选项主要是【display】中的【max_columns,max_rows,max_colwidth,line_width】等这几项,只需要将这几项属性值设置得大一些就可以解决。

修改后的程序为:

importtensorflow as tfimportnumpy as npimportmatplotlib.pyplot as pltimportpandas as pdfrom sklearn.utils import shuffle #打乱样本

pd.set_option('display.max_column

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值