pandas学习笔记01

最新推荐文章于 2024-09-15 22:31:42 发布

一天啊

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量274

点赞数

文章标签： python pandas

本文链接：https://blog.csdn.net/weixin_42314871/article/details/116785899

版权

这篇博客介绍了Pandas库的基础知识，包括pd.Series()和pd.DataFrame()的创建，以及DataFrame的选择方法如切片、索引选择、loc、iloc和以是/否进行筛选。通过实例展示了如何在Python中操作和分析数据。

摘要由CSDN通过智能技术生成

pandas学习笔记

Pandas 是 Python 语言的一个扩展程序库，用于数据分析。

https://www.runoob.com/pandas/pandas-tutorial.html

Pandas 是一个开放源码、BSD 许可的库，提供高性能、易于使用的数据结构和数据分析工具。

Pandas 名字衍生自术语 "panel data"（面板数据）和 "Python data analysis"（Python 数据分析）。

Pandas 一个强大的分析结构化数据的工具集，基础是 Numpy（提供高性能的矩阵运算）。

通常，pandas和numpy结合使用

导入pandas、numpy库

import pandas as pd
import numpy as np

创建

1.pd.Series()

用于创建序列

s = pd.Series([1,3,6,np.nan,44,1])
print(s)

输出结果：

0     1.0
1     3.0
2     6.0
3     NaN
4    44.0
5     1.0
dtype: float64

2.pd.DataFrame()

DataFrame中可以自定义行、列索引，若没有自己定义，则均默认为0,1....

在这里，想用时间表示行，则需要首先定义一个描述行的索引

用到了pd.date_range()

dates = pd.date_range('20210514',periods = 6)
print(dates)

输出结果：

DatetimeIndex(['2021-05-14', '2021-05-15', '2021-05-16', '2021-05-17',
               '2021-05-18', '2021-05-19'],
              dtype='datetime64[ns]', freq='D')

接下来可以创建DataFrame

# 这里用numpy.random.randn(6,4)创建一个6行4列的随机矩阵，作为dataframe的values
df = pd.DataFrame(np.random.randn(6,4),index = dates, columns = ['a','b','c','d'])
print(df)

其中，index代表行索引，column代表列索引

输出结果：

                   a         b         c         d
2021-05-14 -0.579605  1.578659 -1.135843  1.579486
2021-05-15 -0.146635 -0.434033  0.017211  0.932069
2021-05-16  0.481561  0.588987 -1.134286  0.543638
2021-05-17 -1.207582  0.779603  0.324648  0.564213
2021-05-18 -0.641064 -0.592017 -0.03173