头歌基于大数据的房产估价

最新推荐文章于 2024-05-29 09:31:50 发布

霸敛

最新推荐文章于 2024-05-29 09:31:50 发布

阅读量569

点赞数 9

文章标签：大数据 python matplotlib numpy jupyter

本文链接：https://blog.csdn.net/qq_52754254/article/details/138268564

版权

头歌基于大数据的房产估价

`制作不易！点个关注！给大家带来更多的价值！`

一、实验目的与要求
1、掌握使用numpy和pandas库处理数据的基本方法。 2、掌握使用Sklearn库对多元线性回归算法的实现及其评价方法。 3、掌握使用matplotlib结合pandas库对数据分析可视化处理的基本方法。
二、实验内容
1、利用python中pandas等库完成对数据的预处理，最后将处理好的文件进行保存。 2、利用pandas、matplotlib等库完成对预处理数据的可视化。 3、结合pandas、matplotlib库对聚类完成的结果进行可视化处理。
三、实验步骤

1.数据预处理

（1）导入所需要使用的包

import pandas as pd 
import numpy as np
import os
import re
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split #划分测试集与训练集
from sklearn.linear_model import LinearRegression as LR #回归模块

（2）读取文件

input_dir='/data/bigfiles/'
files=os.listdir(input_dir)
data_list=[]
for file in files:
    data_list.append(pd.read_excel(input_dir + file))

（3）查看数据的基本统计信息

data=pd.concat(data_list)
data.head()

（4）删除csv文件中索引列，并重置

data=data.reset_index()
data=data.drop('index',axis=1)
data.head(10)

（5）处理空值

(data.isnull()).sum()
#检查重复值
(data.duplicated()).sum()
#抛弃重复值
data.drop_duplicates(inplace=True)
data.head()

（6）删除部分数据的中文字符，将数据类型转换为float型

#使用正则表达式查看单价列中含有的中文字符种类
data.总价.map(lambda x: re.sub('[^\u4E00-\u9FA5]','',x)).unique()
print(data.单价.map(lambda x: re.sub('[^\u4E00-\u9FA5]','',x)).unique())

data['单价']=data.单价.map(lambda x : round(float(re.findall(r'单价(.*?)元/平米',x)[0])/10000,2))

#删去字符串“万”，将类型转换float，保留两位小数
data['总价']=data.总价.map(lambda x : round(float(x.replace('万','')),2))
data
#拆分房屋信息所在列
a = data.房屋信息.map(lambda x : len(x.split('|')))
data= data[a == 7]
data.loc[:,'户型'] = data.房屋信息.map(lambda x : x.split(