Pandas学习笔记

本文详细介绍了Pandas库的使用,包括数据结构Series和DataFrame的创建与属性,数据获取与保存,数据筛选,条件查询,增删改查,数据库操作,数据整合,排序,分组聚合,透视图和交叉表,数据预处理如日期处理和字符串处理,以及数据清洗如重复值、缺失值和异常值的处理。内容涵盖Pandas的多个核心功能和实用技巧。
摘要由CSDN通过智能技术生成

1.常用的数据结构有:Series,DataFrame

Series的创建:

import pandas as pd
series1=pd.Series([1,2,3,4],index=['a','b','c','d'],name='practice')

Series的对象可以是列表、字典和数组,其中字典的键即为索引

Series常用属性有:values以数组形式呈现数值(pandas的建立是基于numpy)、index、dtypes、ndim

方法有append()用于拼接,drop()删除但不改变原序列,若想改变,需设置参数inplace=True

DataFrame可看作是由多个Series组成的,或理解为Series是DataFrame的一列。

DataFrame的创建:

pd.DataFrame(data,index,dtype,columns)data对象可以是列表、数组、字典,index为行索引,columns为列名或列标签

常用属性有:values、shape、dtypes、columns、ndim、size、index

to_list()方法可用列表形式查看

2.数据获取和保存

技巧:先修改运行路径,再读取文件

import os
os.getcwd() # 获取当前路径
os.chdir('文件存储路径') # 将Python运行路径改为文件存储路径
df=pd.read_csv('文件名.csv',encoding='gbk',dtype={'id':str},nrows=n,sep=',',na_values='暂无') # 当文件中存在大量中文时,encoding宜设置为gbk,nrows只读取前n行,默认以,分割,na_values设 
     # 置将“暂无”读取为缺失值

注:pandas默认将第一行作为表头

常用方法:head(n)查看前n行、tail(n)查看后n行、dtypes属性查看每一列的数据类型,其中object一般指字符串类型

读取excel文件,参数sheet_name用于指定读取的表

df=pd.read_excel('文件名.xlsx',encoding='utf-8',sheet_name='')

concat()用于拼接数据,ignore_index=True用于索引设置。

数据保存:

data.to_csv/to_excel(data.csv/xlsx,index=False) index表示不写入索引

3.数据筛选

查看前n行:df[:n]

查看某一列:df.column_name或df['column_name']

查看某一列前n行:df['column_name'][:n]

loc与iloc:

df.loc[A,B]其中A,B分别为行索引、列索引的名称

df.iloc[A,B]其中A,B分别为行、列的位置,即索引值

因而loc方法更加灵活

4.条件查询与增删改查

逻辑运算符:&与、|或、~非用于连接条件

注:条件与条件之间要有()

1)判断是否在某一区间内df[column].between(a,b,inclusive=True)inclusive=True表示包含a,b

2)判断a中是否包含b df['a']isin(['b'])或df['a'].str.contains('b')

删除a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值