第十二篇:复习python数据清洗

本文详细介绍了如何使用Python的pandas库进行数据清洗,包括从CSV和Excel文件导入数据,处理缺失值,数据类型转换,以及导入SQL文件的操作。重点展示了如何使用pandas进行数据预处理,如重命名、数据类型转换和数据质量检查。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、啥是数据清洗

数据处理和清洗是数据科学和机器学习领域中的重要环节,它们涉及到数据的预处理、转换、清理和整理等工作。在现实生活中,数据通常是不完美的,可能包含错误、缺失值、重复值等问题,因此需要进行数据处理和清洗。Python是一个非常流行的编程语言,它提供了许多强大的库来帮助我们进行数据处理和清洗,例如pandas、numpy、sklearn等。

二、将表格数据导入pandas中

1. 准备工作

请添加图片描述
下载以上文件,并准备好测试数据
我分别放在了

  • chapter01:在C盘——用户——Administrator——AAAAAAAAAA——data 数据内
  • EditPlus:在电脑E盘EditPlus中
  • Anaconda3:在C盘——ProgramData——Anaconda3中

准备好上面的工具之后在,开始界面单击开始,

在这里插入图片描述
然后会出现一个这个页面(显示的内容和——文件资源管理器——C盘——用户——Administrator这个文件夹下面的内容是一样的,可以在文件夹中创建一个文件夹,如果页面同步更新,说明操作无误):
在这里插入图片描述

然后右上角new——选择python3即可
在这里插入图片描述




2. 引入csv文件

2.1 引入pandas库

导入pandas库并设置环境,更轻松地查看输出

import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format	#保留两位小数
pd.set_option('display.width',85)	#展示的宽度
pd.set_option('display.max_columns',8)	#展示的最大列数

2.2 读取文件/修改名称

读取文件,为标题设置新名称,然后解析日期列。
将skiprows参数设置为1,以跳过第一行,将列的列表传递给parse_dates以从这些列中创建一个Pandas日期时间列,并将low_memory参数设置为False,以减少过程中的内存使用量

代码如下:

landtempssample = pd.read_csv(r'data/landtempssample.csv',
names=['stationid','year','month','avgtemp','latitude',
      'longitude','elevation','station','countryid','country'],
        skiprows=1,	#跳过第一行
        parse_dates=[['month','year']],
        low_memory=False)	#低内存运行
type(landtempssample)

运行效果:

在这里插入图片描述

3.2 快速浏览数据

使用head查看前几条数据,显示所有列的数据类型以及行和列的数量

查看前几行数据:

landtempssample.head(7)

效果如下:
在这里插入图片描述
查看行和列的类型:

landtempssample.dtypes

效果如下:
在这里插入图片描述
查看行和列的数量:

landtempssample.shape

效果如下:
在这里插入图片描述

2.4 修改名字

把日期列修改一个更好的名字,并且查看月份平均温度的摘要统计信息

landtempssample.rename(columns={
   'month_year':'measuredate'},inplace = True)
landtempssample.dtypes
landtempssample.avgtemp.d
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值