上海链家二手房交易数据分析

【python】上海链家二手房交易数据分析目的:练习pandas数据处理以及数据可视化数据采集时间:2017/11/7数据获取:八爪鱼数据采集工具数据量:约3w条字段:行政区、小区名称、房型、楼层、朝向、单价、总价、建造年代等1.数据预处理 ——# 定义一个分列数据的函数工具用于将home_info和location_info的信息拆分出来import pandas...
摘要由CSDN通过智能技术生成

【python】上海链家二手房交易数据分析

  • 目的:练习pandas数据处理以及数据可视化
  • 数据采集时间:2017/11/7
  • 数据获取:八爪鱼数据采集工具
  • 数据量:约3w条
  • 字段:行政区、小区名称、房型、楼层、朝向、单价、总价、建造年代等

1.数据预处理
------原始数据

# 定义一个分列数据的函数工具用于将home_info和location_info的信息拆分出来
import pandas as pd 
def data_split(df_data):
	df_data = df_data.map(lambda x:x.replace('\n', ''))
	df_data = df_data.map(lambda x:x.replace(' ',''))
	df_data = df_data.map(lambda x:x+'|')
	df_data_0 = df_data.map(lambda x:x.split('|')[0])
	df_data_1 = df_data.map(lambda x:x.split('|')[1])
	df_data_2 = df_data.map(lambda x:x.split('|')[2])
	df_data_3 = df_data.map(lambda x:x.split('|')[3])
	df_data = pd.concat([df_data_0, df_data_1, df_data_2, df_data_3], axis=1)
	return df_data
	
# 导入数据并预处理	
import pandas as pd 
import matplotlib.pylab as plt
from matplotlib.pylab import style
import datetime
starttime = datetime.datetime.now()
style.use('ggplot')     # 设置图片显示的主题样式
# 解决matplotlib显示中文问题
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
df_2 = pd.read_csv('.\lianjia_ershoufang_new.csv') 
print('数据集基本信息:')
print(df_2.info())
print('数据集共{}行,{}列'.format(df_2.shape[0],df_2.shape[1]))
print('原始数据预览:')
print(df_2.head())

df_2 = pd.concat([df_2.iloc[:,:3],data_clean(df_2['home_info']),data_clean(df_2['location_info'])], axis=1)
df_2.columns =['travel', 'total_price', 'price','room_type', 'area', 'floor', 'orientation', 'area_name', 'district', 'location', 'built_year']

# 为便于数据分析,去除数值中的汉字
df_2['built_year'] = df_2['built_year'].map(lambda x:x.replace('年建',''))
# 这一步是为了后面可以顺利将built_year转成int类型
for i in range(df_2.shape[0]):
    if df_2.loc[i,'built_year'] == '':
        df_2.loc[i,'built_year'] = 0
    else:
        pass
df_2['area'] = df_2['area'].map(lambda x:x.replace('平',''))
df_2.built_year = df_2.built_year.astype('int')
df_2['area'] = df_2['area'].astype('float64')
df_2.to_csv('.\lianjia_clean.csv', sep=',', index=False)   # 数据清洗完毕写入csv保存
endtime = datetime.datetime.now()
time_used = (endtime - starttime).seconds
print('数据预处理完成,共耗时%s秒' % time_used)
print('预处理后数据预览:')
df_2.head()

2.数据可视化

**2.1 总价、单价、面积和建造年代分布直方图**
fig = plt.figure(figsize=(15.0,10.0))
ax1 = fig.add_subplot(2,2,1)
ax2 = fig.add_subplot(2,2,2)
ax3 = fig.add_subplot(2,2,3)
ax4 = fig.add_subplot(2,2,4)

fig.suptitle('链家二手房交易数据总览')

df_totalprice = df_2[df_2['total_price'] < 4000]  # 略去总价4000w以上的数据
ax1.hist(df_totalprice['total_price'], bins=100, color='blue', alpha=0.7)
ax1.set_xlabel('总价')
ax1.set_ylabel('数量')

ax2.hist(df_2['price'] , bins
  • 1
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: 对于python数据分析项目——链家上海二手房数据分析(一),我可以提供一些帮助。首先,你可以使用Python中的Pandas库来收集和处理链家上海二手房数据。Pandas可以帮助你从网站上获取相关信息,并针对指定的数据集执行许多不同的操作,以便更好地分析和理解这些数据。此外,还可以使用Matplotlib库来可视化数据,以便更清楚地了解链家上海二手房的特征。 ### 回答2: 链家上海二手房数据分析是一个使用Python进行数据探索和分析的项目。通过对链家网站上的二手房数据进行爬虫操作,我们可以获取到大量的关于上海二手房的信息。 在这个项目中,我们首先需要搭建一个爬虫,用于从链家网站上获取到二手房数据。我们可以利用Python中的网络请求库和解析库,如requests和BeautifulSoup,来发送网络请求并解析返回的网页内容,从而获取到我们需要的数据。 获取到数据后,我们可以进行数据清洗和预处理。这一步骤主要是针对数据中存在的缺失值、异常值等问题进行处理,以确保数据的准确性和一致性。我们可以使用Python中的pandas库来进行数据的清洗和预处理操作。 接下来,我们可以对数据进行探索性分析。通过使用Python中的数据可视化库,如matplotlib和seaborn,我们可以对数据的特征进行可视化展示,以便更好地理解数据的分布和关系。我们可以绘制直方图、散点图、箱线图等来探索二手房价格、面积、位置等特征与其他变量之间的关系。 最后,我们可以进行一些统计分析,如计算二手房价格的平均值、中位数等统计指标,以及进行一些基本的回归分析,如线性回归等。这些分析可以帮助我们揭示出二手房市场的一些趋势和规律,为我们做出更好的决策提供依据。 总之,链家上海二手房数据分析项目是一个利用Python进行数据爬取、清洗、探索和分析的项目,通过对这些步骤的操作,我们可以更好地理解上海二手房市场的情况,并从中获取到有价值的信息。 ### 回答3: 链家是中国最大的房地产经纪公司之一,在其网站上能够找到各个城市的二手房信息。本项目选取了链家上海二手房数据进行分析。 首先,我们需要从链家网站上爬取二手房的相关数据,包括房屋的价格、面积、区域、朝向、装修情况等等。通过分析这些数据,我们能够得到一些有趣的结论。 比如,我们可以通过计算平均价格和面积,找出上海不同区域二手房的价格及面积分布情况。通过这些分布情况,我们可以了解到哪些区域的二手房更贵,哪些区域的二手房面积更大,帮助购房者做出更明智的决策。 此外,我们还可以通过数据分析,得到不同房屋朝向和装修情况对价格的影响。通过比较不同朝向和装修情况下的价格差异,我们可以了解到市场对于这些因素的偏好,从而也为购房者提供一些参考。 另外,我们还可以通过分析不同时间段内的二手房成交量,找出上海二手房市场的活跃时段。这对于购房者来说也是非常有用的,因为他们可以根据市场活跃程度来选择合适的时间进行购买。 最后,我们还可以通过数据分析,找出上海二手房市场的热门区域和热门楼盘。这些信息对于投资者来说尤为重要,因为他们可以根据市场趋势来选择合适的投资区域和楼盘。 通过对链家上海二手房数据的分析,我们可以得到很多有用的信息,帮助购房者和投资者做出更明智的决策。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值