Python疑难杂症(20)---在Python语言中使用Pandas模块查看数据框中数据的总体概况

在数据挖掘和分析中对于数据进行总体认识,是了解数据内容和情况的根本所在。在数据没有装入内容前,可以通过execl或者sql语言等工具查看数据情况,但是装入内存中,这些工具就无能为力了。 而在Python语言中使用Pandas模块可以查看装入内容的数据框中数据的总体概况。

数据实例介绍

使用的数据为五粮液从2021年1月1日到2024年4月12日的交易行情,列数为序号、日期、开盘、收盘、最高、最低价格、成交量、成交额、振幅、涨跌幅、换手率等12个字段,793条记录。如下表:

读入数据

使用前面章节的知识点,读入文件中的execl表格数据,文件类型为csv格式。

import pandas as pd

import os

mypath=r"D:\_____newyear_willdo\py\gp"

df=pd.read_csv(os.path.join(mypath+'\\'+'Wly_Data.csv'),encoding='utf-8') ## 数据导出为csv文件

df

数据读入后存入df变量中,通过df命令,可以直接数据内容。

从显示的数据内容可以知道,数据读入内存,系统自动为每行增加了索引,索引值从0到792,格式和execl文件中内容基本相似,中间显示不开的自动使用。。。。。。分割,下面还详细显示了该数据框为793行和12列。

head(N)与 tail(N)初步认识数据

head(N)与 tail(N)是显示数据框的前面的N行或者后面的N行,缺省值是5行。

df.head(3)

输出:


Unnamed: 0日期开盘收盘最高最低成交量成交额振幅涨跌幅涨跌额换手率002021-01-04292.00298.05300.00291.992342786.977115e+092.742.126.200.62112021-01-05297.20319.98319.98294.503146069.802666e+098.557.3621.930.83222021-01-06320.15328.30335.66317.793134301.021162e+105.582.608.320.83

df.tail(2)

输出:


Unnamed: 0日期开盘收盘最高最低成交量成交额振幅涨跌幅涨跌额换手率7917912024-04-11142.6142.34142.66140.61599432.264028e+091.44-0.54-0.780.417927922024-04-12142.0140.49143.45140.11340731.895838e+092.35-1.30-1.850.35

info()进一步整体把握数据情况

info()方法查看数据表中各列的数据类型,是否有空值,数据表的总体概貌等。

df.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 793 entries, 0 to 792

Data columns (total 12 columns):

 #   Column      Non-Null Count  Dtype 

---  ------      --------------  ----- 

 0   Unnamed: 0  793 non-null    int64 

 1   日期          793 non-null    object

 2   开盘          793 non-null    float64

 3   收盘          793 non-null    float64

 4   最高          793 non-null    float64

 5   最低          793 non-null    float64

 6   成交量         793 non-null    int64 

 7   成交额         793 non-null    float64

 8   振幅          793 non-null    float64

 9   涨跌幅         793 non-null    float64

 10  涨跌额         793 non-null    float64

 11  换手率         793 non-null    float64

dtypes: float64(9), int64(2), object(1)

memory usage: 74.5+ KB

从上面的显示可以看出:数据索引的范围和取值、列的个数和列名称,每个列的数据类型,每个类的数据个数和是否存在空值等。

shape方法

shape()方法会以元组的形式返回行、列数。注意 shape 方法获取行数和列数时计算行索引和列索引。

df.shape

(793, 12)

此处显示该表有793行和12列。即该数据框存在793个观察值和12个属性。

describe()方法

describe()方法可以获取所有数值类型字段的分布值情况。

df.describe()

结果显示了总行数、平均值、最大最小、一分位、二分位、三分位值以及方差。可以对数据的大小和范围有一个总体的观察。这个命令可以对于数据值型数据有一个总体的概括分析,包括每个属性的有多少观察值,平均值是多少、标准差多少、最大值、最小值以及四分位 的值是多少,即对于数据范围有一个全面的认识。为后面的数据分析,特征工程提供基础。

如果感觉有价值,请点赞、收藏、转发。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值