Pandas数据分析

最新推荐文章于 2024-09-22 17:42:35 发布

钟良建呀

最新推荐文章于 2024-09-22 17:42:35 发布

阅读量153

点赞数

分类专栏： Pandas数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_42518228/article/details/106629542

版权

Pandas数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

核心数据结构

Series一维带标签数组

"""Series 创建"""
# ndarray创建 
series = pd.Series(np.random.randn(5),index=list("abcde"))  # index参数指定行标签，如未指定则采用系统默认值
# list创建
series = pd.Series([1,2,3,4,5],index=list("abcde"))
# dict创建
series = pd.Series(dict(a=10,b=20,c=30,d=40,e=50))
# scalar创建
series = pd.Series(6,index=list("abcde")) 
"""属性和方法"""
print(series.index)  # 行标签
print(series.name)   # 对象名字
print(series.shape)  # 形状大小
print(series.dtypes) # 数据类型
print(series.values) # 数据
series.head(2) # 获取开头两行数据
series.tail(2) # 获取最后两行数据
series.describe() # 获取数据的统计描述
series.sort_values() # 按数据进行排序
series.reindex(new_indexs) # 重定义行索引
"""索引"""
# 类ndarray对象
print("series[0]:{0}".format(series[0]))
print("series[0:4]:{0}".format(series[0:4]))
# 类dict对象
print("series['a']:{0}".format(series["a"]))
print("a in series:{0}".format("a" in series))
print("series.get('a'):{0}".format(series.get('a')))
# 标签对齐
series1 = pd.Series(np.random.randn(6),index=list("abcdef"))
series2 = pd.Series(np.random.randn(5),index=list("acfgj"))
series1+series2

DataFrame二维带标签数组

"""创建DataFrame对象"""
# 从二维ndarray数组创建
df = pd.DataFrame(np.random.randn(6,4),index=list("ABCDEF"),columns=["one","two","three","four"])
# 从字典创建
df = pd.DataFrame(dict(A=list(range(6)),B=list(range(1,7)),C=list(range(2,8))),index=list("abcdef"))
# 从结构化数据中创建
df = pd.DataFrame([[1,2,3,4],[2,3,4,5],[3,4,5,6]])
df = pd.DataFrame([(1,2,3,4),(5,6,7,8)],index=list("AB"),columns=["one","two","three","four"])
df = pd.DataFrame([{"A":1,"B":2},{"A":2,"B":4}])
# 从Series对象创建
df = pd.DataFrame(series,index=list("abcde"))
"""属性和方法"""
df.index # 获取行标签
df.columns # 获取列标签
df.pop() # 弹出某列
del df[col] # 删除某列
df.insert() # 插入某列
df.assign() # 调用函数插入某列
df.reindex() # 重定义标签，可通过index/columns参数指定重定义行或列标签
df.drop() # 丢弃数据 可传入列表丢弃多行或多列，axis参数指定丢弃行或列


"""索引"""
df[col] # 以列标签索引某列
df.loc[lable] # 以行标签索引某行
df.iloc[index_label] # 以行位置索引某行,可多行索引
df[bool_vector] # 以布尔向量选择为True的行，向量长度与行数相等
df.swaplevel() # 交换索引
df.sortlevel() # 索引排序
# 标签对齐
df1+df2 # 相同行列标签的数据会执行+操作，不同行列操作直接扩展拼接

Panel三维带标签数组(使用较少，详情查手册)

索引

层次化索引
层次化索引可以使数据在一个轴上有多个索引级别。即以二维方式表达高维数据，使数据组织方式更清晰。

"""Series多层索引"""
a = [['a', 'a', 'a', 'b', 'b', 'c', 'c'], [1, 2, 3, 1, 2, 2, 3]]
tuples = list(zip(*a))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second']) # index为生成的多重索引对象
s = pd.Series(np.random.randn(7), index=index) # 数据实现多重索引
s.index.levels[0] # 取出第一层索引
"""DataFrame多层索引"""
df = pd.DataFrame(np.random.randint(1, 10, (4, 3)), 
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],   # 行多层索引
                  columns=[['one', 'one', 'two'], ['blue', 'red', 'blue']])  # 列多层索引
"""索引交换及排序"""
df.swaplevel(name1,name2) # 交换两个name1及name2对应的索引层
df.sortlevel(0) # 对指定索引层排序
df.sum(level=0) # 按指定索引层进行统计
"""索引与列的转换"""
df.set_index(cols) # 将指定的一列列设置为索引
df.reset_index() # 重置行索引

基础运算

df.apply() # 将数据按行或列进行运算，axis参数指定行或列
df.applymap() # 逐元素运算
df.sort_values() # 指定按某列数据进行排序
df.sort_index() # 按列标签进行排序
series.unique() # 输出唯一成员，类似于集合
series.value_counts() # 对值进行计数，统计每个值出现的次数
series.isin() # 判断每个值是否在给定序列中

分组计算

"""对Series分组"""
df[col].groupby(df[col1]) # 通过col1的数据对col进行分组
df[col].groupby([df[col1],df[col2]])
"""对DataFrame分组"""
df.groupby(col) # 通过列标签col对df进行分组
df.groupby([col1,col2])
"""获取分组元素个数"""
df.groupby([col1,col2]).size() 
"""对分组进行迭代"""
for name,group in df.groupby(col):
	print(name)
	print(group)
"""将分组转化为字典"""
dict(list(df.groupby(col)))
"""按列分组"""
df.groupby(df.dtypes,axis=1)
"""通过字典分组"""
df.groupby(dict(col1="red",col2="red",col3='blue',col4='blue'),axis=1) # 按列标签将数据分为red和blue两组
"""按索引级别分组"""
columns = pd.MultiIndex.from_arrays([['China', 'USA', 'China', 'USA', 'China'],
                                     ['A', 'A', 'B', 'C', 'B']], names=['country', 'index'])
df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), columns=columns)
df.groupby(level='country', axis=1)  # 按一级索引，也就是country进行分组
"""分组重置索引index"""
df.groupby(col).reset_index()
df.groupby(col,as_index=False)

聚合计算

"""内置聚合函数"""
df.groupby(df.col).sum()  	# 对组内元素求和
df.groupby(df.col).min()	# 对组内元素取最小值
df.groupby(df.col).max()	# 对组内元素取最大值
df.groupby(df.col).mean()	# 对组内元素取平均值
df.groupby(df.col).std()	# 对组内元素求标准差
df.groupby(df.col).describe() # 获取组内元素的统计描述
"""自定义聚合函数"""
def peak(s):
    return s.max() - s.min()
df.groupby(df.col).agg(peak) # 将函数名传入agg()作为参数即可
"""应用多个聚合函数"""
df.groupby(df.col).agg(['mean','std',peak])  # 应用mean(),std(),自定义的peak()函数
"""给聚合后的列取名"""
df.groupby(df.col).agg([('mean','col_mean'),('std','col_std'),(peak,'col_peak')])  # 将函数和对应的名字以元组的形式传递即可，即(function,name)
"""对不同列应用不同的聚合函数"""
df.groupby([col1,col2]).agg(dict(col1=['mean',peak],col2=['sum','std']))  # 以字典作为参数即可，字典的键表示相应的列

分组运算和转换

# 分组运算包括“拆分-应用-合并”
df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randint(1, 10, 5),
                  'data2': np.random.randint(1, 10, 5)})
"""给每行添加一个以key1分组后的平均值"""
k1_mean = df.groupby('key1').mean().add_prefix('mean_')
pd.merge(df, k1_mean, left_on='key1', right_index=True)
"""transform简化处理"""
k1_mean = df.groupby('key1').transform(np.mean).add_prefix('mean_')
df[k1_mean.columns] = k1_mean 
"""距平化(与平均值的差值)"""
df = pd.DataFrame(np.random.randint(1, 10, (5, 5)), 
                  columns=['a', 'b', 'c', 'd', 'e'], 
                  index=['Alice', 'Bob', 'Candy', 'Dark', 'Emily'])
def demean(s):
    return s - s.mean()

key = ['one', 'one', 'two', 'one', 'two']
demeaned = df.groupby(key).transform(demean)
"""apply函数(逐行或逐列处理数据)"""
df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a', 'a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one', 'one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randint(1, 10, 10),
                  'data2': np.random.randint(1, 10, 10)})
# 根据 column 排序，输出其最大的 n 行数据
def top(df, n=2, column='data1'):
    return df.sort_values(by=column, ascending=False)[:n]
df.groupby('key1').apply(top,n=3,column="data2")

数据导入导出

时间日期

数据可视化

创建数据对象

"""创建数据对象"""
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline  # 设置inline风格，用于内嵌显示
# 创建Series对象：类似一维数组
data = pd.Series([1,2,3,np.nan,5,6])
# 创建DataFrame对象：类似二维数组  
date = pd.date_range("20200608",periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=date,columns=list("ABCD")) 
df = pd.DataFrame(dict(A=1,\
						B=pd.Timestamp("20200608"),\
						C=list(range(4)),\
						D=np.arange(5,9),\
						E="text",\
						F=list("AABBCCDD")))
df.values # 获取所有数据
df.dtypes # 获取每列数据的类型
df.A # 获取A列的数据，A是Series类型
df.shape # 查看对象形状
df.head(n) # 查看开头的n行数据
df.tail(n) # 查看末尾的n行数据
df.index # 获取数据的行标签
df.colums # 获取数据的列标签
df.describe() # 获取数据的统计摘要描述
df.T # 将数据转置，类似矩阵转置
df.sort_index(axis=1,ascending=False) # 对列标签按降序排列排序(不对数据排序，数据会跟随标签移动)
# axis指定按行标签0还是列标签1排序，ascending指定了排序是升序True还是降序False
df.sort_values(by="C") 	# 按某列数据进行排序（标签跟随数据移动）
"""数据访问：标签访问"""
df.loc["20200608"] 		# 按行标签选择整行数据
df.loc[:,"A"] 			# 按列标签选择整列数据
df.loc["20200608":"20200612","A":"B"] # 按行列标签范围选择数据
df.loc["20200608":"20200610",["A","C"]] # 按行范围的指定列标签选择数据
df.loc["20200608","A"] 	# 按行标签和列标签选择某个数据
df.at[pd.Timestamp("20200608","A")]	# 功能与前一行的loc相同，但对于标签必须指定具体的数据类型
"""数据访访问：位置访问"""
df.iloc[1] # 选择指定位置行的数据
df.iloc[:,1] # 选择指定位置列的数据
df.iloc[1:5,1:3] # 选择指定位置范围的数据
df.iloc[1,1] # 选择指定位置的数据
df.iat[1,1] # 同上
"""布尔索引"""
df[df > value] # 索引全部符合要求的数据，对不符合要求的数据用NaN表示
df[df.A > value] # 索引当前列所有符合要求的行
df[df.F.isin(["A","C"])] # 索引指定列包含相应数据分行
"""处理丢失数据"""
# pandas使用numpy.NaN 表示丢失数据，它不参与计算
df.dropna(axis=0,how="any") # 用于移除包含NaN的行或列，不改变原有数据
df.fillna(value=5,method=None) # 用指定方法或固定值填充NaN，二者不能同时指定
pd.isnull(df) # 判断哪些值时NaN，返回对象与df等大小，数据为布尔值
df.mean() # 求均值，可指定按行或列进行
df.sum() # 求和，可指定按行或列进行
df.sub() # 求差，可指定按行或列进行
df.cumsum() # 累积求和，可指定行列进行
df.apply(func) # 可将列作为参数传递给指定函数
df.iloc[0].value_counts() # 统计某行或某列据的重复次数
df.iloc[0].mode() # 对某行或某列进行排序
"""数据合并"""
pd.concat([df.iloc[0],df.iloc[2:4],df.iloc[6]]) # 合并多个子表，可指定按行或列
pd.merge() # 执行数据库风格的合并
df.append(df.iloc[0]) # 将某个dataframe/series/list/dict追加到后面
"""分组统计"""
df.groupby("A").sum() # 按A列的值进行分组，统计求和
df.groupby(["A","B"]).sum() # 先按A列的值分组，再按B列的值分组，统计求和
index = pd.MultiIndex.from_tuples(tuples,names=["first","second"]) # 设置多重行标签或列标签
df.stack() # 将最底层列标签转换为行标签
df.unstack() # 将最底层行标签转换为列标签
"""数据透视"""
pd.pivot_table(df,values="A",index=["D","E"],columns=["C"]) # value为需要透视的列数据，index为透视选择的行标签，columns为透视选择的列标签 
"""时间序列"""
pd.date_range("20200609",periods=600,freq="s")  
pd.period_range(start=pd.Period('2017Q1', freq='Q'),end=pd.Period('2017Q2',freq='Q'),freq='M')
df.resample("2Min",how="sum")  # 按时间间隔进行从采样，采样方式为求和

"""类别数据"""
df["grade"] = df["D"].astype("category")  # 为某列数据添加类别
df["grade"].cat.categories = ["goog","very good"] # 改变类别的值，如对类别数据将按照原有数据排序
"""数据读写"""
df.to_csv("data.csv")  # 将数据写入到CSV文件
df = pd.read_csv("data.csv",index_col)  # 将数据从CSV文件中读取