数据清洗–3.1 Excel文件中解析–提取–清洗–保存数据到CSV文件
目录
前言
从不同类型的数据源解析并读取数据是数据清洗的重要的环节。本篇文章是解析多种类型文件的其中一篇,让我们开始吧。
一、从CSV, Excel file读取数据
以Python代码为例,读取CSV file, 读取之后就可以对这个df做各种操作,比如查找,删除行列,重命名列名等,就不在这里赘述了。
# pip install pandas
import pandas as pd
df = pd.read_csv(filename)
读取Excel file,Excel 的操作还是有些可以说的。
# 读取文件
# 如果你知道想要提取的数据在哪个sheet里面,可以直接用pd.read_excel(filename)
excel_data = pd.ExcelFile(filename)
# 我们可以通过sheet_names function 来获取excel的每个sheet的名字
# 方便后续的调用
excel_data.sheet_names
# output: ['Sheet 1', 'Sheet 2']
df = excel_data.parse('Sheet 2')
# output 是一个pandas的dataframe,包含着sheet 2 中的数据。
二、读取、解析、清洗Excel文件
示例中使用的文件
链接: https://pan.baidu.com/s/1rEebaRz1JVuKpjO9EXWUUw
提取码: ukrg
Google Drive: https://drive.google.com/file/d/1lk1jwpWtQ1R4G0Y0eHQvaUzqkdPKzorI/view?usp=sharing
目标:从Excel的Table 2 中提取出可以供后续使用(用于构建模型)的各国家相关数据, 干净的、表格状的数据。
2.1 读取文件
import pandas as pd
# load file
excel_data = pd.ExcelFile('SOWC 2014 Stat Tables_Table 2.xlsx')
# 获取sheet names
excel_data.sheetnames
# output: ['Data Notes', 'Table 2 ']
# 选择’Table 2 ‘ 表
df = excel_data.parse('Table 2 ')
df
# output是一个pd.DataFrame
可以看到里面有很多NaN
我们来看一下原始的Excel是什么样的