数据清洗--3.1 Excel文件中解析--提取--清洗--保存数据到CSV文件

最新推荐文章于 2024-05-24 00:48:06 发布

Alvin3411

最新推荐文章于 2024-05-24 00:48:06 发布

阅读量3k

点赞数 5

分类专栏： Data Wrangling Python学习文章标签：数据挖掘

本文链接：https://blog.csdn.net/Alvin3411/article/details/113824011

版权

数据清洗–3.1 Excel文件中解析–提取–清洗–保存数据到CSV文件

前言

从不同类型的数据源解析并读取数据是数据清洗的重要的环节。本篇文章是解析多种类型文件的其中一篇，让我们开始吧。

一、从CSV, Excel file读取数据

以Python代码为例，读取CSV file, 读取之后就可以对这个df做各种操作，比如查找，删除行列，重命名列名等，就不在这里赘述了。

# pip install pandas
import pandas as pd
df = pd.read_csv(filename)

读取Excel file，Excel 的操作还是有些可以说的。

# 读取文件
# 如果你知道想要提取的数据在哪个sheet里面，可以直接用pd.read_excel(filename)
excel_data = pd.ExcelFile(filename)

# 我们可以通过sheet_names function 来获取excel的每个sheet的名字
# 方便后续的调用
excel_data.sheet_names
# output： ['Sheet 1', 'Sheet 2']

df = excel_data.parse('Sheet 2')
# output 是一个pandas的dataframe，包含着sheet 2 中的数据。

二、读取、解析、清洗Excel文件

示例中使用的文件
链接: https://pan.baidu.com/s/1rEebaRz1JVuKpjO9EXWUUw
提取码: ukrg
Google Drive: https://drive.google.com/file/d/1lk1jwpWtQ1R4G0Y0eHQvaUzqkdPKzorI/view?usp=sharing

目标：从Excel的Table 2 中提取出可以供后续使用（用于构建模型）的各国家相关数据，干净的、表格状的数据。

2.1 读取文件

import pandas as pd
# load file
excel_data = pd.ExcelFile('SOWC 2014 Stat Tables_Table 2.xlsx')

# 获取sheet names
excel_data.sheetnames
# output: ['Data Notes', 'Table 2 ']

# 选择’Table 2 ‘ 表
df = excel_data.parse('Table 2 ')
df
# output是一个pd.DataFrame