pandas 快速入门教程
学习目的
通过学习pandas 撑握 处理excel 文件的技巧,提高日常工作中处理excel文件的效率。
一、认识pandas
pandas 是一个强大的数据处理工具集,它可以对数据进行清理、运算、统计、合并、数据分片等操作。
二、安装pandas
pip 安装pandas
首先确认系统已安装pip ,如未安装 可先安装pip
mac 系统:sudo easy_install pip
win 系统:python -m pip install -U pip
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas
三、数据结构
pandas 数据结构分为:Series、DataFrame两种。
名称 | 描述 |
---|---|
Series | Series表示一维数据,可以简单理解为一个向量,但是不同于向量的是,Series会自动为这一维数据创建行索引。 |
创建Series
import pandas as pd
obj = pd.Series(['1','2','3','4'])
名称 | 描述 |
---|---|
DataFrame | dataframe是一种表格型的数据结构,既有行索引index,也有列索引columns。其实可以简单把dataframe理解为一张数据表。 |
创建DataFrame
import pandas as pd
#方法一 字典生成
d = {
'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
#方法二 文件生成
df = pd.read_excel("demo.xlsx")
#方法三 创建一个空DataFrame
df = pd.DataFrame(columns=["name","age","gender"])
四、导入Excel数据
方法一:
import pandas as pd
df = pd.read_excel("g:\\python\\sample\\pandas\\10.xlsx")
方法二:
import pandas as pd
excelFile = pd.ExcelFile("g:\\python\\sample\\pandas\\10.xlsx")
# 此方法 多用于从一个Excel文件 中获取多个sheet操作 较为方便,只需要修改sheet_name
df = pd.read(excelFile,sheet_name="sheet1")
#sheetList = excelFile.sheet_names 获取当前excel文件里的sheet 名 列表。["sheet1","sheet2"]
pd.read_excel(io,sheet_name,header)
参数名 | 描述 |
---|---|
io | 要读取的Excel文件。其形式(str, bytes, ExcelFile, xlrd.Book, path object, or file-like object) |
sheet_name | 要读取的工作表名称(可以是整型数字、列表名) |
header | 设定某一行为列名,默认值为0行。 |
五、输出Excel数据
方法一
import pandas as pd
# 将df 的数据生成一个excel文件,默认sheet_name为sheet1,也可以根据需要自定义。
df = DataFrame({
"name":["小张","小李"],"age":[18,20]}
df.to_excle(file_path) #file_path 文件存放路径+文件名
方法二
import pandas as pd
df1 = DataFrame({
"name":["小张","小李"],"age":[18,20]}
df2 = DataFrame({
"goods_name":["土豆","茄子"],"price":[1.3,3,5]})
excelWriter = pd.ExcelWriter(filePath) #file_path 文件存放路径+文件名
df1.to_excel(excelWriter,sheet_name="用户信息")#生成一个用户信息sheet
df2.to_excel(excelWriter,sheet_name="商品信息") #生成一个商品信息sheet
excelWrite.save()
excelWrite.close()
注:需要在一个excel中生成多个sheet的时候用第二种方法
DataFrame.to_excel(excel_writer, sheet_name=‘Sheet1’)
参数名 | 描述 |
---|---|
excel_writer | Excel文件路径字符串或者是ExcelWriter对像(如方法二) |
sheet_name | 默认为‘Sheet1’,可自定义一个 sheet 名(字符串) |
六、数据概览
DataFrame为我们提供了两个非常好用的数据概览函数:
函数 | 描述 |
---|---|
info() | 展示数据概要信息(如索引、列数、列名、数据量、数据类型、缺失值、内存等) |
describe() | 展示统计信息(统计结果包括了数据量、均值、方差、最大值、最小值等) |
代码示例
import pandas as pd
df = pd.read_excel("g:\\python\\sample\\pandas\\10.xlsx")
print df.info()
输出结果:
import pandas as pd
df = pd.read_excel("g:\\python\\sample\\pandas\\10.xlsx"