数据清洗--3.1 Excel文件中解析--提取--清洗--保存数据到CSV文件

数据清洗–3.1 Excel文件中解析–提取–清洗–保存数据到CSV文件



前言

从不同类型的数据源解析并读取数据是数据清洗的重要的环节。本篇文章是解析多种类型文件的其中一篇,让我们开始吧。



一、从CSV, Excel file读取数据

以Python代码为例,读取CSV file, 读取之后就可以对这个df做各种操作,比如查找,删除行列,重命名列名等,就不在这里赘述了。

# pip install pandas
import pandas as pd
df = pd.read_csv(filename)

读取Excel file,Excel 的操作还是有些可以说的。

# 读取文件
# 如果你知道想要提取的数据在哪个sheet里面,可以直接用pd.read_excel(filename)
excel_data = pd.ExcelFile(filename)

# 我们可以通过sheet_names function 来获取excel的每个sheet的名字
# 方便后续的调用
excel_data.sheet_names
# output: ['Sheet 1', 'Sheet 2']

df = excel_data.parse('Sheet 2')
# output 是一个pandas的dataframe,包含着sheet 2 中的数据。


二、读取、解析、清洗Excel文件

示例中使用的文件
链接: https://pan.baidu.com/s/1rEebaRz1JVuKpjO9EXWUUw
提取码: ukrg
Google Drive: https://drive.google.com/file/d/1lk1jwpWtQ1R4G0Y0eHQvaUzqkdPKzorI/view?usp=sharing

目标:从Excel的Table 2 中提取出可以供后续使用(用于构建模型)的各国家相关数据, 干净的、表格状的数据。

2.1 读取文件

import pandas as pd
# load file
excel_data = pd.ExcelFile('SOWC 2014 Stat Tables_Table 2.xlsx')

# 获取sheet names
excel_data.sheetnames
# output: ['Data Notes', 'Table 2 ']

# 选择’Table 2 ‘ 表
df = excel_data.parse('Table 2 ')
df
# output是一个pd.DataFrame

可以看到里面有很多NaN
在这里插入图片描述
我们来看一下原始的Excel是什么样的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值