pandas数据表信息查看

鲑鱼与渔夫

已于 2024-04-15 20:42:56 修改

阅读量475

点赞数 6

文章标签： pandas

于 2024-04-15 20:34:31 首次发布

本文链接：https://blog.csdn.net/dongyang03162813/article/details/137767106

版权

本文讲解了如何使用Pandas进行数据探索，涉及df.shape、df.dtype、df.info、df.isnull、df.unique、df.values、列索引和头尾查看等关键函数。

摘要由CSDN通过智能技术生成

1.维度查看

df.shape

返回（行，列）

import pandas as pd

# 创建一个简单的 DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data)

# 查看 DataFrame 的形状
print(df.shape)  # 输出: (3, 3)

2.类型查看

df.dtype

series中使用df.dtype

data = [1, 2, 3]
df=pd.Series(data)
print(df.dtype)
#输出int64

DataFrame中使用df[行名].dtype

import pandas as pd

# 创建一个简单的 DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data)
print(df['A'].dtype)
#输出int64

3.查看简化信息

df.info()

用于打印出DataFrame的简要摘要信息

一般有

*类型

*行数

*列数

*index，column ，Non-Null Count（每列的非空值数量），Dtype

*内存使用情况（memory usage）

import pandas as pd

# 创建一个简单的 DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data)
df.info()
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 3 entries, 0 to 2
# Data columns (total 3 columns):
#  #   Column  Non-Null Count  Dtype
# ---  ------  --------------  -----
#  0   A       3 non-null      int64
#  1   B       3 non-null      int64
#  2   C       3 non-null      int64
# dtypes: int64(3)
# memory usage: 200.0 bytes

4. 查看空值

df.isnull()用于检测DataFrame中缺失值的方法。它会返回一个与原始DataFrame相同大小的DataFrame（建立了一个新的副本），但其中的元素会被替代为布尔值，表示相应位置的值是否为确实值（NaN或False）

具体来说，如果一个数缺失，那么将输出True，不缺失则输出False


import pandas as pd

# 创建一个简单的 DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data)
dk=df.isnull()#检测其是否含有空值
print(dk)
date={
    'H':['A','B','C'],
    'J':['V','B',None],
    'K':['X','F',None]
      }
#       A      B      C
# 0  False  False  False
# 1  False  False  False
# 2  False  False  False
dz=pd.DataFrame(date)
dl=dz.isnull()
print(dl)
#       H      J      K
# 0  False  False  False
# 1  False  False  False
# 2  False   True   True
# isnull可以检测numpy库的NAN和python库的None，但是检测到None的时候会将其自动转化为NAN
#isnull()检测空值，一般用fillna()来填充空值
#isnull()只能用来检测空值，不能检测异常的数据，不符合要求的数据结构

df[列].isnull（）可以检测某一行的数据有无空值

5.查看行唯一值

df[列].unique（）

获取DataFrame中所有唯一值的方法，它返回一个数组，包含了该列中所有不重复的值

import pandas as pd
date={
    'H':['A','B','C'],
    'J':['V','B',None],
    'K':['X','F',None]
      }
dz=pd.DataFrame(date)
dl=dz['H'].unique()#检测’H‘这一列所有的唯一值
print(dl)
# 输出：['A' 'B' 'C']
# dl=dz.unique()在语法上是错误的，DataFrame没有特别的方法来检测出所有数据中的特别的值，因为特别二字太宽泛了，它可能只多种不同的情况

6.查看数据

df.values

用于获取DataFrame对象df中的数据，并返回一个NumPy ndarray对象。这个ndarray对象包含了DataFrame中的所有数据，但不包括行索引和列标签.

import pandas as pd
date={
    'H':['A','B','C'],
    'J':['V','B','m'],
    'K':['X','F','k']
      }
dz=pd.DataFrame(date)
dl=dz.values
print(dl)
#输出：[['A' 'V' 'X']
 # ['B' 'B' 'F']
 # ['C' 'm' 'k']]

7.查看行列

df.columns查看列索引

df.index查看行标签

import pandas as pd
date={
    'H':['A','B','C'],
    'J':['V','B','m'],
    'K':['X','F','k']
      }
dz=pd.DataFrame(date)
print(dz.index)
print(dz.columns)
#输出：RangeIndex(start=0, stop=3, step=1)
# Index(['H', 'J', 'K'], dtype='object')

8.查看头和尾

df.head（n）查看前n行数据，如果n缺省则默认查看前5行数据

df.tail（n）查看后n行数据，如果n缺省则默认查看后5行数据

import pandas as pd

# 创建一个简单的DataFrame
data = {'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'B': [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]}
df = pd.DataFrame(data)

# 查看前5行数据（默认）
print(df.head())

# 查看后5行数据（默认）
print(df.tail())
#输出：
#    A   B
# 0  1  10
# 1  2   9
# 2  3   8
# 3  4   7
# 4  5   6
#     A  B
# 5   6  5
# 6   7  4
# 7   8  3
# 8   9  2
# 9  10  1
print(df.head(3))
print(df.tail(3))
#输出：
#    A   B
# 0  1  10
# 1  2   9
# 2  3   8
#     A  B
# 7   8  3
# 8   9  2
# 9  10  1