pandas学习记录

最新推荐文章于 2024-06-02 19:37:58 发布

forever_zzx

最新推荐文章于 2024-06-02 19:37:58 发布

阅读量145

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/forever_zzx/article/details/115920090

版权

python 专栏收录该内容

46 篇文章 0 订阅

订阅专栏

前言

提示：这里可以添加本文要记录的大概内容：
例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

一、pandas是什么？

Pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；

用于数据挖掘和数据分析，同时也提供数据清洗功能。

二、使用步骤

1. pandas数据结构

1.1 Series

它是一种类似于一维数组的对象，是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。

仅由一组数据也可产生简单的Series对象。

1.2 DataFrame

DataFrame是Pandas中的一个表格型的数据结构，包含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔型等)，

DataFrame即有行索引也有列索引，可以被看做是由Series组成的字典。

2. 使用方法

2.1 创建对象

创建一个Series对象：

import numpy as np
import pandas as pd
s = pd.Series([1,3,6.2,5])
print(s)

0    1.0
1    3.0
2    6.2
3    5.0
dtype: float64

pandas默认自动生成索引值，我们也可以指定索引

s = pd.Series([1,3,6.2,5], index=['0','3','5','6'])
print(s)

0    1.0
3    3.0
5    6.2
6    5.0
dtype: float64

创建一个DataFrame对象

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
print(df)

A B C D
0 1.076220 0.896091 0.124460 0.227721
1 0.007916 0.200983 -0.590342 -0.000473
2 -0.229281 -0.316015 -0.348253 -0.178962
3 0.441122 -1.683549 0.354141 -0.972107
4 0.440712 1.962820 -0.634699 -0.078040
5 0.782211 0.244547 -0.491865 -2.656968

	A	B	C	D
0	1.076220	0.896091	0.124460	0.227721
1	0.007916	0.200983	-0.590342	-0.000473
2	-0.229281	-0.316015	-0.348253	-0.178962
3	0.441122	-1.683549	0.354141	-0.972107
4	0.440712	1.962820	-0.634699	-0.078040
5	0.782211	0.244547	-0.491865	-2.656968

2.2 查看数据

使用head函数模型可查看前5条数据

df.head()

A B C D
0 1.076220 0.896091 0.124460 0.227721
1 0.007916 0.200983 -0.590342 -0.000473
2 -0.229281 -0.316015 -0.348253 -0.178962
3 0.441122 -1.683549 0.354141 -0.972107
4 0.440712 1.962820 -0.634699 -0.078040

	A	B	C	D
0	1.076220	0.896091	0.124460	0.227721
1	0.007916	0.200983	-0.590342	-0.000473
2	-0.229281	-0.316015	-0.348253	-0.178962
3	0.441122	-1.683549	0.354141	-0.972107
4	0.440712	1.962820	-0.634699	-0.078040

describe可以快速查看数据的统计摘要：

df.describe()

A B C
count 6.000000 6.000000 6.000000 6.000000
mean 0.419817 0.217480 -0.264426 -0.609805
std 0.480432 1.217067 0.408885 1.082892
min -0.229281 -1.683549 -0.634699 -2.656968
25% 0.116115 -0.186766 -0.565723 -0.773821
50% 0.440917 0.222765 -0.420059 -0.128501
75% 0.696939 0.733205 0.006282 -0.019865
max 1.076220 1.962820 0.354141 0.227721

	A	B	C
count	6.000000	6.000000	6.000000	6.000000
mean	0.419817	0.217480	-0.264426	-0.609805
std	0.480432	1.217067	0.408885	1.082892
min	-0.229281	-1.683549	-0.634699	-2.656968
25%	0.116115	-0.186766	-0.565723	-0.773821
50%	0.440917	0.222765	-0.420059	-0.128501
75%	0.696939	0.733205	0.006282	-0.019865
max	1.076220	1.962820	0.354141	0.227721

可以得到每一列的均值、平均值、最大值、最小值、方差等信息。

我们还可以查看DataFrame对象的尺寸

df.shape

(6, 4)

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

forever_zzx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas学习记录

目录前言二、使用步骤1. pandas数据结构1.1 Series1.2 DataFrame2. 使用方法2.1 创建对象2.2 查看数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、pandas是什么？Pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据..
复制链接

扫一扫