一、啥是数据清洗
数据处理和清洗是数据科学和机器学习领域中的重要环节,它们涉及到数据的预处理、转换、清理和整理等工作。在现实生活中,数据通常是不完美的,可能包含错误、缺失值、重复值等问题,因此需要进行数据处理和清洗。Python是一个非常流行的编程语言,它提供了许多强大的库来帮助我们进行数据处理和清洗,例如pandas、numpy、sklearn等。
二、将表格数据导入pandas中
1. 准备工作
下载以上文件,并准备好测试数据
我分别放在了
- chapter01:在C盘——用户——Administrator——AAAAAAAAAA——data 数据内
- EditPlus:在电脑E盘EditPlus中
- Anaconda3:在C盘——ProgramData——Anaconda3中
准备好上面的工具之后在,开始界面单击开始,
然后会出现一个这个页面(显示的内容和——文件资源管理器——C盘——用户——Administrator这个文件夹下面的内容是一样的,可以在文件夹中创建一个文件夹,如果页面同步更新,说明操作无误):
然后右上角new——选择python3即可
2. 引入csv文件
2.1 引入pandas库
导入pandas库并设置环境,更轻松地查看输出
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format #保留两位小数
pd.set_option('display.width',85) #展示的宽度
pd.set_option('display.max_columns',8) #展示的最大列数
2.2 读取文件/修改名称
读取文件,为标题设置新名称,然后解析日期列。
将skiprows参数设置为1,以跳过第一行,将列的列表传递给parse_dates以从这些列中创建一个Pandas日期时间列,并将low_memory参数设置为False,以减少过程中的内存使用量
代码如下:
landtempssample = pd.read_csv(r'data/landtempssample.csv',
names=['stationid','year','month','avgtemp','latitude',
'longitude','elevation','station','countryid','country'],
skiprows=1, #跳过第一行
parse_dates=[['month','year']],
low_memory=False) #低内存运行
type(landtempssample)
运行效果:
3.2 快速浏览数据
使用head查看前几条数据,显示所有列的数据类型以及行和列的数量
查看前几行数据:
landtempssample.head(7)
效果如下:
查看行和列的类型:
landtempssample.dtypes
效果如下:
查看行和列的数量:
landtempssample.shape
效果如下:
2.4 修改名字
把日期列修改一个更好的名字,并且查看月份平均温度的摘要统计信息
landtempssample.rename(columns={
'month_year':'measuredate'},inplace = True)
landtempssample.dtypes
landtempssample.avgtemp.d