Pandas

初始化模板

import pandas as pd
import numpy as np
import os
import warnings 
warnings.filterwarnings('ignore')
pd.set_option('display.max_rows', 600)  # 设置最大行数
pd.set_option('display.max_columns', 100)  # 设置最大列数

1. IO

1.1 Pickle

函数作用
pd.read_pickle()读取pickle数据
df.to_pickle()导出为pkl文件

1.2 文本文件

函数作用参数重要说明
pd.read_csv()读取csv文件数据sepsep读取csv文件时指定的分隔符,默认为逗号,制表符用"\t";
delim_whitespace设置为True时,只要是空白字符(空格或制表符)分割就能读取
headerheader为0时,第一行为列索引,=None时自动加索引
names没有表头时手动生成表头,也可以替换掉原表头(首先设header=0)
index_col设置某列为索引,index_col=“col_name”
usecols只选用部分列读取,赋值为一个列表
dtype指定数据类型,所有数据一样时用类型名(dtype=str),特定列特定类型时用字典
converters字典,在读取的时候对列数据进行变换
nrows设置一次性读入的文件行数
na_values指定某些值处理成 NaN
encoding指定字符集类型,通常指定为 ‘utf-8’。根据情况也可能是’ISO-8859-1’
pd.to_csv()将数据转化为csv文档

2. 通用函数

3. Series

函数作用参数重要说明
pd.Series()创建Seiesdata, index, dtype, namename设置列名

4. DataFrame

函数作用参数重要说明
pd.Dataframe()创建DataFramedata, index, columns, dtype

5. Pandas array

6. 索引对象

函数作用参数重要说明
pd.Index()创建索引Index对象data, dtype, namename设置索引名

9.Groupby

9.1 Groupby对象属性

属性作用参数重要说明
.aggregate()或者.agg()常用于分组后的累计func可以是函数或字符串(当只用一种计算方式)、列表(多种计算方式)或字典(不同字段使用多种计算方式)

12. Pandas常用技巧

1. 调整列的顺序

#先删除列,然后新增列到指定位置:
col1 = df.col1
df = df.drop('col1',axis=1)
df.insert(0,'col1',col1 )

2. 筛选条件后赋值

# 无效方法
df['跨省'] = '是'
df.loc[df.归属省 == df.落地省]['跨省'] = '否'
df['跨省'].value_counts()

# 有效方法
df['跨省'] = '是'
df.loc[df.归属省 == df.落地省,['跨省']] = '否'
df['跨省'].value_counts()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值