作为北漂中的一员,我们都明白,租房是不能回避的问题。租房被坑,也是难以避免的。多数人都有那么一段不堪回首的与黑中介面对面的往事。其实,就是贪图便宜。
便宜可以占,但是我们要理性地占便宜。要有全局观、大局观。
所以,爬取链家网的租房数据,一起来看一看,有哪些性价比高的房子。让我们用科学的手段来选择房子,拒绝黑中介,拒绝撞大运和异想天开。
数据源可至百度网盘提取,永久有效。
链接:https://pan.baidu.com/s/1EqfsnGlb63HeUlKlQfGEgg
提取码:i20b
本项目分为两部分,数据清洗、可视化探索。本文为第一部分,第二部分可前往查看。
链家网北京市租房数据python实战——可视化探索
以下是数据清洗的正文内容,大部分图是jupyter截图或导出图片。
1. 导入数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot')
data = pd.read_csv('data_lianjia.csv', encoding='gbk', index_col=False)
data.head()
# 默认语言'gbk',另外要设置inex_col = False 默认原数据无行索引,不然会导致URL默认为行索引。
# 补充:header = False, 默认原数据无列索引。
2. 数据概览
了解一下数据的基本情况。共有3330条数据。
经纪人有33条缺失,其他字段无缺失。 对于经纪人的缺失,我们不做处理。
data.info()
3. 移除重复值
data.duplicated().sum() # 本语句可以看到项目有396条重复值
data = data.drop_duplicates() # 移除重复数据
4. 数据规整
对于各字段做针对性处理。
# 更改部分字段列名,方便记忆
data.rename(columns={
'房屋类型厅室'