pandas笔记

最新推荐文章于 2022-11-12 16:49:24 发布

听书人999

最新推荐文章于 2022-11-12 16:49:24 发布

阅读量206

点赞数

分类专栏： python 文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/qq_63507404/article/details/126270525

版权

python 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

1.pandas常用数据类型
Series：一维，带标签的数组，标签也就是索引
DataFrame ：二维，Series容器，一列是一个Series

2.Series一维容器

1）.创建Series

	# 字典创建
	temp_dict = {'name': 'wang', 'age': 20, 'tel':10010, 'like':'sleep'}
	s3= pd.Series(temp_dict)

2）.索引和切片

name = s3["name"] 
age = s3["age"]
tel = s3["tel"]

3）.取不连续的值

s3[[0,2]]  # 获取0行和2行
s3[["name", "like"]])  # 获取name行和like行

4）.index和values的相关操作

temp_dict = {'name': 'wang', 'age': 20, 'tel':10010, 'like':'sleep'}
s3= pd.Series(temp_dict) 
name, age, tel, like = s3.index  
s3.values 
len(s3.index)  # 获取可迭代对象长度
len(s3.values)
list(s3.index)  # 可迭代对象转换为列表
list(s3.values)

3. DataFrame (二维容器)

1）.创建DataFrame

import pandas as pd
	import numpy as np
	df1 = pd.DataFrame(np.arange(12).reshape(3,4), index=list("abc"), columns=list("wxyz"))
    print(df1)

2）.df.shape # 返回行数和列数
df.dtypes # 返回列数据类型
df.index # 返回行索引
df.column # 返回列索引
df.values # 返回数据值，不包含索引
df.info() # 返回相关信息，行数、列数、列非空个数、列类型、内存占用等
df.describe() # 快读统计综合结果，计数、均值、标准差、最大最小值等
df.head(3) # 返回数据的前3行，默认5行
df.tail(3) # 返回数据的后3行，默认5行

3）.loc通过标签获取数据

 df1.loc["a"]  # 取a行
    df1.loc["a",:]  # 取a行，同上
    df1.loc["W"]  # 报错，只能取行，不能取列
    df1.loc[:,"W"] # 取W列
    df1.loc["a","W"]  # 取a行和W列相交的元素
    df1.loc[["a", "b"]]  # 取a列和b行
    df1.loc[["a","b"], :]  # 取a行和b行，同上
    # 取a行、c行和W列、Y列相交的4个元素，在numpy中只能取出两个元素
    df1.loc[["a", "c"], ["W", "Y"]]
    df1.loc["a":"c", ["W"]]  # 使用loc进行切片索引时，最后一个c是可以选中的，从a到c，和w列相交的3个数据

4）.iloc通过位置获取数据

	df1.iloc[1,:]  # 取第1行数据
    df1.iloc[:,1:]  # 取第1列以及往后的所有数据
    # 取1行、2行和2列、2列相交的4个元素，若在numpy中取得是df1[1][2]和df1[2][3]
    df1.iloc[[1,2],[2,3]]
    df1.iloc[:,[0,2]]  # 取第0列和第2列
    # 把0行和1行赋值成NaN，在numpy中直接赋值会报错，应转换为float
    df1.iloc[:2] = np.nan