第十二篇：复习python数据清洗

张箫剑

已于 2024-05-02 16:17:41 修改

阅读量1.9k

点赞数 19

文章标签：学习 python 开发语言

于 2024-03-05 19:09:21 首次发布

本文链接：https://blog.csdn.net/2302_76696304/article/details/136467963

版权

本文详细介绍了如何使用Python的pandas库进行数据清洗，包括从CSV和Excel文件导入数据，处理缺失值，数据类型转换，以及导入SQL文件的操作。重点展示了如何使用pandas进行数据预处理，如重命名、数据类型转换和数据质量检查。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、啥是数据清洗

数据处理和清洗是数据科学和机器学习领域中的重要环节，它们涉及到数据的预处理、转换、清理和整理等工作。在现实生活中，数据通常是不完美的，可能包含错误、缺失值、重复值等问题，因此需要进行数据处理和清洗。Python是一个非常流行的编程语言，它提供了许多强大的库来帮助我们进行数据处理和清洗，例如pandas、numpy、sklearn等。

二、将表格数据导入pandas中

1. 准备工作

请添加图片描述
下载以上文件，并准备好测试数据
我分别放在了

chapter01：在C盘——用户——Administrator——AAAAAAAAAA——data 数据内
EditPlus：在电脑E盘EditPlus中
Anaconda3：在C盘——ProgramData——Anaconda3中

准备好上面的工具之后在，开始界面单击开始，

在这里插入图片描述
然后会出现一个这个页面（显示的内容和——文件资源管理器——C盘——用户——Administrator这个文件夹下面的内容是一样的，可以在文件夹中创建一个文件夹，如果页面同步更新，说明操作无误）：

然后右上角new——选择python3即可
在这里插入图片描述

2. 引入csv文件

2.1 引入pandas库

导入pandas库并设置环境，更轻松地查看输出

import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format	#保留两位小数
pd.set_option('display.width',85)	#展示的宽度
pd.set_option('display.max_columns',8)	#展示的最大列数

2.2 读取文件/修改名称

读取文件，为标题设置新名称，然后解析日期列。
将skiprows参数设置为1，以跳过第一行，将列的列表传递给parse_dates以从这些列中创建一个Pandas日期时间列，并将low_memory参数设置为False，以减少过程中的内存使用量

代码如下：

landtempssample = pd.read_csv(r'data/landtempssample.csv',
names=['stationid','year','month','avgtemp','latitude',
      'longitude','elevation','station','countryid','country'],
        skiprows=1,	#跳过第一行
        parse_dates=[['month','year']],
        low_memory=False)	#低内存运行
type(landtempssample)

运行效果：

在这里插入图片描述

3.2 快速浏览数据

使用head查看前几条数据，显示所有列的数据类型以及行和列的数量

查看前几行数据：

landtempssample.head(7)

效果如下：
在这里插入图片描述
查看行和列的类型：

landtempssample.dtypes

效果如下：
在这里插入图片描述
查看行和列的数量：

landtempssample.shape

效果如下：
在这里插入图片描述

2.4 修改名字

把日期列修改一个更好的名字，并且查看月份平均温度的摘要统计信息

landtempssample.rename(columns={
   'month_year':'measuredate'},inplace = True)
landtempssample.dtypes
landtempssample.avgtemp.d

最低0.47元/天解锁文章