Pandas学习笔记

最新推荐文章于 2024-10-25 16:36:22 发布

我就是美玉

最新推荐文章于 2024-10-25 16:36:22 发布

阅读量1.5k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/m0_58444622/article/details/124123891

版权

本文详细介绍了Pandas库的使用，包括数据结构Series和DataFrame的创建与属性，数据获取与保存，数据筛选，条件查询，增删改查，数据库操作，数据整合，排序，分组聚合，透视图和交叉表，数据预处理如日期处理和字符串处理，以及数据清洗如重复值、缺失值和异常值的处理。内容涵盖Pandas的多个核心功能和实用技巧。

摘要由CSDN通过智能技术生成

1.常用的数据结构有：Series，DataFrame

Series的创建：

import pandas as pd
series1=pd.Series([1,2,3,4],index=['a','b','c','d'],name='practice')

Series的对象可以是列表、字典和数组，其中字典的键即为索引

Series常用属性有：values以数组形式呈现数值（pandas的建立是基于numpy）、index、dtypes、ndim

方法有append()用于拼接，drop()删除但不改变原序列，若想改变，需设置参数inplace=True

DataFrame可看作是由多个Series组成的，或理解为Series是DataFrame的一列。

DataFrame的创建：

pd.DataFrame(data,index,dtype,columns)data对象可以是列表、数组、字典，index为行索引，columns为列名或列标签

常用属性有：values、shape、dtypes、columns、ndim、size、index

to_list()方法可用列表形式查看

2.数据获取和保存

技巧：先修改运行路径，再读取文件

import os
os.getcwd() # 获取当前路径
os.chdir('文件存储路径') # 将Python运行路径改为文件存储路径
df=pd.read_csv('文件名.csv',encoding='gbk',dtype={'id':str},nrows=n,sep=',',na_values='暂无') # 当文件中存在大量中文时，encoding宜设置为gbk,nrows只读取前n行，默认以,分割，na_values设 
     # 置将“暂无”读取为缺失值

注：pandas默认将第一行作为表头

常用方法：head(n)查看前n行、tail(n)查看后n行、dtypes属性查看每一列的数据类型，其中object一般指字符串类型

读取excel文件，参数sheet_name用于指定读取的表

df=pd.read_excel('文件名.xlsx',encoding='utf-8',sheet_name='')

concat()用于拼接数据，ignore_index=True用于索引设置。

数据保存：

data.to_csv/to_excel(data.csv/xlsx,index=False) index表示不写入索引

3.数据筛选

查看前n行：df[:n]

查看某一列：df.column_name或df['column_name']

查看某一列前n行：df['column_name'][:n]

loc与iloc：

df.loc[A,B]其中A,B分别为行索引、列索引的名称

df.iloc[A,B]其中A,B分别为行、列的位置，即索引值

因而loc方法更加灵活

4.条件查询与增删改查

逻辑运算符：&与、|或、~非用于连接条件

注：条件与条件之间要有（）

1）判断是否在某一区间内df[column].between(a,b,inclusive=True)inclusive=True表示包含a,b

2）判断a中是否包含b df['a']isin(['b'])或df['a'].str.contains('b')

删除a

最低0.47元/天解锁文章