Python疑难杂症（20）---在Python语言中使用Pandas模块查看数据框中数据的总体概况

最新推荐文章于 2024-10-13 19:04:04 发布

石榴花专场

最新推荐文章于 2024-10-13 19:04:04 发布

阅读量1k

点赞数 23

文章标签： python pandas 开发语言

本文链接：https://blog.csdn.net/m0_59917021/article/details/141937725

版权

在数据挖掘和分析中对于数据进行总体认识，是了解数据内容和情况的根本所在。在数据没有装入内容前，可以通过execl或者sql语言等工具查看数据情况，但是装入内存中，这些工具就无能为力了。而在Python语言中使用Pandas模块可以查看装入内容的数据框中数据的总体概况。

数据实例介绍

使用的数据为五粮液从2021年1月1日到2024年4月12日的交易行情，列数为序号、日期、开盘、收盘、最高、最低价格、成交量、成交额、振幅、涨跌幅、换手率等12个字段，793条记录。如下表：

读入数据

使用前面章节的知识点，读入文件中的execl表格数据，文件类型为csv格式。

import pandas as pd

import os

mypath=r"D:\_____newyear_willdo\py\gp"

df=pd.read_csv(os.path.join(mypath+'\\'+'Wly_Data.csv'),encoding='utf-8') ## 数据导出为csv文件

数据读入后存入df变量中，通过df命令，可以直接数据内容。

从显示的数据内容可以知道，数据读入内存，系统自动为每行增加了索引，索引值从0到792，格式和execl文件中内容基本相似，中间显示不开的自动使用。。。。。。分割，下面还详细显示了该数据框为793行和12列。

head(N)与 tail(N)初步认识数据

head(N)与 tail(N)是显示数据框的前面的N行或者后面的N行，缺省值是5行。

df.head(3)

输出：

Unnamed: 0日期开盘收盘最高最低成交量成交额振幅涨跌幅涨跌额换手率002021-01-04292.00298.05300.00291.992342786.977115e+092.742.126.200.62112021-01-05297.20319.98319.98294.503146069.802666e+098.557.3621.930.83222021-01-06320.15328.30335.66317.793134301.021162e+105.582.608.320.83

df.tail(2)

输出：

Unnamed: 0日期开盘收盘最高最低成交量成交额振幅涨跌幅涨跌额换手率7917912024-04-11142.6142.34142.66140.61599432.264028e+091.44-0.54-0.780.417927922024-04-12142.0140.49143.45140.11340731.895838e+092.35-1.30-1.850.35

info()进一步整体把握数据情况

info()方法查看数据表中各列的数据类型，是否有空值，数据表的总体概貌等。

df.info()

RangeIndex: 793 entries, 0 to 792

Data columns (total 12 columns):

# Column Non-Null Count Dtype

--- ------ -------------- -----

0 Unnamed: 0 793 non-null int64

1 日期 793 non-null object

2 开盘 793 non-null float64

3 收盘 793 non-null float64

4 最高 793 non-null float64

5 最低 793 non-null float64

6 成交量 793 non-null int64

7 成交额 793 non-null float64

8 振幅 793 non-null float64

9 涨跌幅 793 non-null float64

10 涨跌额 793 non-null float64

11 换手率 793 non-null float64

dtypes: float64(9), int64(2), object(1)

memory usage: 74.5+ KB

从上面的显示可以看出：数据索引的范围和取值、列的个数和列名称，每个列的数据类型，每个类的数据个数和是否存在空值等。

shape方法

shape()方法会以元组的形式返回行、列数。注意 shape 方法获取行数和列数时计算行索引和列索引。

df.shape

(793, 12)

此处显示该表有793行和12列。即该数据框存在793个观察值和12个属性。

describe()方法

describe()方法可以获取所有数值类型字段的分布值情况。

df.describe()

结果显示了总行数、平均值、最大最小、一分位、二分位、三分位值以及方差。可以对数据的大小和范围有一个总体的观察。这个命令可以对于数据值型数据有一个总体的概括分析，包括每个属性的有多少观察值，平均值是多少、标准差多少、最大值、最小值以及四分位的值是多少，即对于数据范围有一个全面的认识。为后面的数据分析，特征工程提供基础。