初始化模板
import pandas as pd
import numpy as np
import os
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_rows', 600)
pd.set_option('display.max_columns', 100)
1. IO
1.1 Pickle
函数 | 作用 |
---|
pd.read_pickle() | 读取pickle数据 |
df.to_pickle() | 导出为pkl文件 |
1.2 文本文件
函数 | 作用 | 参数 | 重要说明 |
---|
pd.read_csv() | 读取csv文件数据 | sep | sep读取csv文件时指定的分隔符,默认为逗号,制表符用"\t"; |
| | delim_whitespace | 设置为True时,只要是空白字符(空格或制表符)分割就能读取 |
| | header | header为0时,第一行为列索引,=None时自动加索引 |
| | names | 没有表头时手动生成表头,也可以替换掉原表头(首先设header=0) |
| | index_col | 设置某列为索引,index_col=“col_name” |
| | usecols | 只选用部分列读取,赋值为一个列表 |
| | dtype | 指定数据类型,所有数据一样时用类型名(dtype=str),特定列特定类型时用字典 |
| | converters | 字典,在读取的时候对列数据进行变换 |
| | nrows | 设置一次性读入的文件行数 |
| | na_values | 指定某些值处理成 NaN |
| | encoding | 指定字符集类型,通常指定为 ‘utf-8’。根据情况也可能是’ISO-8859-1’ |
pd.to_csv() | 将数据转化为csv文档 | | |
2. 通用函数
3. Series
函数 | 作用 | 参数 | 重要说明 |
---|
pd.Series() | 创建Seies | data, index, dtype, name | name设置列名 |
4. DataFrame
函数 | 作用 | 参数 | 重要说明 |
---|
pd.Dataframe() | 创建DataFrame | data, index, columns, dtype | |
| | | |
| | | |
5. Pandas array
6. 索引对象
函数 | 作用 | 参数 | 重要说明 |
---|
pd.Index() | 创建索引Index对象 | data, dtype, name | name设置索引名 |
| | | |
| | | |
9.Groupby
9.1 Groupby对象属性
属性 | 作用 | 参数 | 重要说明 |
---|
.aggregate()或者.agg() | 常用于分组后的累计 | func | 可以是函数或字符串(当只用一种计算方式)、列表(多种计算方式)或字典(不同字段使用多种计算方式) |
| | | |
| | | |
| | | |
| | | |
| | | |
12. Pandas常用技巧
1. 调整列的顺序
col1 = df.col1
df = df.drop('col1',axis=1)
df.insert(0,'col1',col1 )
2. 筛选条件后赋值
df['跨省'] = '是'
df.loc[df.归属省 == df.落地省]['跨省'] = '否'
df['跨省'].value_counts()
df['跨省'] = '是'
df.loc[df.归属省 == df.落地省,['跨省']] = '否'
df['跨省'].value_counts()