链家网北京市租房数据分析（一）——基于python的数据清洗

being_Stella

已于 2023-06-01 22:52:55 修改

阅读量7.7k

点赞数 12

分类专栏：数据分析实战文章标签： python 数据分析

于 2020-05-07 10:23:09 首次发布

本文链接：https://blog.csdn.net/ShireYang/article/details/105966919

版权

作为北漂中的一员，我们都明白，租房是不能回避的问题。租房被坑，也是难以避免的。多数人都有那么一段不堪回首的与黑中介面对面的往事。其实，就是贪图便宜。

便宜可以占，但是我们要理性地占便宜。要有全局观、大局观。

所以，爬取链家网的租房数据，一起来看一看，有哪些性价比高的房子。让我们用科学的手段来选择房子，拒绝黑中介，拒绝撞大运和异想天开。

数据源可至百度网盘提取，永久有效。
链接：https://pan.baidu.com/s/1EqfsnGlb63HeUlKlQfGEgg
提取码：i20b

本项目分为两部分，数据清洗、可视化探索。本文为第一部分，第二部分可前往查看。
链家网北京市租房数据python实战——可视化探索

以下是数据清洗的正文内容，大部分图是jupyter截图或导出图片。

1. 导入数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot') 

data = pd.read_csv('data_lianjia.csv', encoding='gbk', index_col=False)
data.head()
# 默认语言'gbk'，另外要设置inex_col = False 默认原数据无行索引，不然会导致URL默认为行索引。
# 补充：header = False, 默认原数据无列索引。

jupyter截图

2. 数据概览

了解一下数据的基本情况。共有3330条数据。

经纪人有33条缺失，其他字段无缺失。对于经纪人的缺失，我们不做处理。

data.info()

在这里插入图片描述

3. 移除重复值

data.duplicated().sum() # 本语句可以看到项目有396条重复值
data = data.drop_duplicates() # 移除重复数据

4. 数据规整

对于各字段做针对性处理。

# 更改部分字段列名，方便记忆
data.rename(columns={
   '房屋类型厅室'

最低0.47元/天解锁文章

being_Stella

关注

12
点赞
踩
102

收藏

觉得还不错? 一键收藏
8
评论
链家网北京市租房数据分析（一）——基于python的数据清洗

本项目主要利用pthon基本语法，对链家网的3000余条整租房源数据做清洗，以便下一步进行具体的分析及可视化。我前期用Jupyer来敲代码，个人觉得比较方便，结果可以直接看到，之后再整合后放到pycharm中运行。
复制链接

扫一扫

专栏目录