链家房源数据清洗和预处理(pandas)

链家房源数据清洗和预处理(pandas)

背景知识要求

Python的pandas库。
pandas官网:http://pandas.pydata.org/

摘要

本文使用pandas库对上一篇文章:链家房源数据爬取(Scrapy)https://blog.csdn.net/qq_39206674/article/details/90114296 获取的数据进行清洗和预处理。

正文

数据清洗

原始数据部分内容如下:
在这里插入图片描述

数据清洗过程包括:

  • 去除Nan数据和重复数据
  • 去除未知和有缺失的数据
  • 去除经过分析无用的数据(以房源为例:车位、别墅数据为无用数据)

数据清洗代码:

# 读文件
df = pd.read_csv(r'lianjia.csv', sep=',')

# 打印原始基本信息
print("original data rowCount: %d" % (df.shape[0]))
print("original data colCount: %d" % (df.shape[1]))
print(df.dtypes)

# 去除Nan数据和重复数据
df.dropna(inplace=True)
df.drop_duplicates(keep="first", inplace=True)

# 去除未知、暂无数据、车位、别墅
df = df[df["build_year"] != "未知"]
df = df[df["gross_area"] != "暂无数据"]
df = df[df["house_orientation"] != "暂无数据"]
df = df[df["usable_area"] != "暂无数据"]
df = df[df["with_elevator"] != "暂无数据"]
df = df[df["year_of_property"] != "未知"]
df = df[(df["household_style"] 
  • 8
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
pandas库是一个用于数据处理和分析的Python库。它提供了一系列函数和方法,可以帮助我们进行数据清洗预处理数据清洗是指对数据进行审核、处理缺失值、处理异常值和重复值等操作,以使数据符合分析和建模的要求。而数据预处理是指对原始数据进行转换、重命名、离散化等操作,以便更好地进行数据分析和建模。 在pandas中,可以使用以下方法进行数据清洗预处理: - 处理重复值:可以通过删除记录重复和特征重复来处理重复值。 - 处理缺失值:可以通过删除、替换或插值的方法来处理缺失值。 - 处理异常值:可以使用3σ原则或箱线图分析等方法来检测和处理异常值。 具体来说,在处理缺失值方面,pandas提供了删除法、替换法和插值法等方法。删除法是指直接删除包含缺失值的记录或特征;替换法是指用指定的值或统计量替换缺失值;插值法是指根据已有数据的模式和趋势,在缺失值附近进行插值计算。 在处理异常值方面,可以使用3σ原则来判断是否为异常值,即判断数据是否偏离平均值超过3倍的标准差。另外,也可以使用箱线图分析来检测异常值,箱线图通过绘制数据的分位数和四分位数范围来表示数据的分布情况,从而确定是否存在异常值。 总之,pandas提供了丰富的功能和方法,可以方便地进行数据清洗预处理,帮助我们更好地分析和理解数据。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Python_pandas_数据清洗预处理.docx](https://download.csdn.net/download/weixin_56859075/23368211)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [【Python】数据处理.pandas数据预处理.清洗数据](https://blog.csdn.net/qq_45797116/article/details/107858510)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [python 数据分析8 pandas 数据清洗&预处理](https://blog.csdn.net/weixin_38673554/article/details/104344063)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值