pandas 快速入门教程

学习目的

通过学习pandas 撑握 处理excel 文件的技巧,提高日常工作中处理excel文件的效率。

一、认识pandas

pandas 是一个强大的数据处理工具集,它可以对数据进行清理、运算、统计、合并、数据分片等操作。

二、安装pandas

pip 安装pandas
首先确认系统已安装pip ,如未安装 可先安装pip

mac 系统:sudo easy_install pip 
win  系统:python -m pip install -U pip

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple  pandas 

三、数据结构

pandas 数据结构分为:Series、DataFrame两种。

名称 描述
Series Series表示一维数据,可以简单理解为一个向量,但是不同于向量的是,Series会自动为这一维数据创建行索引。

创建Series

import pandas as pd
obj = pd.Series(['1','2','3','4'])
名称 描述
DataFrame dataframe是一种表格型的数据结构,既有行索引index,也有列索引columns。其实可以简单把dataframe理解为一张数据表。

创建DataFrame

import pandas as pd
#方法一 字典生成
d = {
   'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
#方法二 文件生成
df = pd.read_excel("demo.xlsx")
#方法三 创建一个空DataFrame
df = pd.DataFrame(columns=["name","age","gender"])

四、导入Excel数据

方法一:

import pandas as pd
df = pd.read_excel("g:\\python\\sample\\pandas\\10.xlsx")

方法二:

import pandas as pd

excelFile = pd.ExcelFile("g:\\python\\sample\\pandas\\10.xlsx")
# 此方法 多用于从一个Excel文件 中获取多个sheet操作 较为方便,只需要修改sheet_name 
df = pd.read(excelFile,sheet_name="sheet1")
#sheetList = excelFile.sheet_names 获取当前excel文件里的sheet 名 列表。["sheet1","sheet2"]

pd.read_excel(io,sheet_name,header)

参数名 描述
io 要读取的Excel文件。其形式(str, bytes, ExcelFile, xlrd.Book, path object, or file-like object)
sheet_name 要读取的工作表名称(可以是整型数字、列表名)
header 设定某一行为列名,默认值为0行。

五、输出Excel数据

方法一

import pandas as pd

# 将df 的数据生成一个excel文件,默认sheet_name为sheet1,也可以根据需要自定义。
df = DataFrame({
   "name":["小张","小李"],"age":[18,20]}
df.to_excle(file_path) #file_path 文件存放路径+文件名

方法二

import pandas as pd

df1 = DataFrame({
   "name":["小张","小李"],"age":[18,20]}
df2 = DataFrame({
   "goods_name":["土豆","茄子"],"price":[1.3,3,5]})

excelWriter = pd.ExcelWriter(filePath) #file_path 文件存放路径+文件名
df1.to_excel(excelWriter,sheet_name="用户信息"#生成一个用户信息sheet
df2.to_excel(excelWriter,sheet_name="商品信息") #生成一个商品信息sheet 

excelWrite.save()
excelWrite.close()

注:需要在一个excel中生成多个sheet的时候用第二种方法

DataFrame.to_excel(excel_writer, sheet_name=‘Sheet1’)

参数名 描述
excel_writer Excel文件路径字符串或者是ExcelWriter对像(如方法二)
sheet_name 默认为‘Sheet1’,可自定义一个 sheet 名(字符串)

六、数据概览

DataFrame为我们提供了两个非常好用的数据概览函数:

函数 描述
info() 展示数据概要信息(如索引、列数、列名、数据量、数据类型、缺失值、内存等)
describe() 展示统计信息(统计结果包括了数据量、均值、方差、最大值、最小值等)

代码示例

import pandas as pd

df = pd.read_excel("g:\\python\\sample\\pandas\\10.xlsx")
print df.info()

输出结果:
在这里插入图片描述

import pandas as pd

df = pd.read_excel("g:\\python\\sample\\pandas\\10.xlsx"
  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值