python基础数据分析--pandas（一）

最新推荐文章于 2021-08-30 21:31:33 发布

六钥

最新推荐文章于 2021-08-30 21:31:33 发布

阅读量610

点赞数

文章标签： python 数据 class numpy

本文链接：https://blog.csdn.net/june2017/article/details/60143070

版权

本文介绍了Python数据分析库pandas的基础知识，包括Series和DataFrame数据结构。Series可视为一维数组，DataFrame则是二维表格数据结构，每列可以包含不同类型的值。文中展示了创建和操作Series及DataFrame的实例，如设置索引、获取值、日期范围生成以及数据排序等。

摘要由CSDN通过智能技术生成

本文为原创，未经允许，不得转载。

1、pandas的数据结构

1）Series：是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。它可以看做一个定长的有序字典。基本任意的一维数据都可以用来构造 Series 对象。

2）DataFrame：是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值的）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典。

Series 和 DataFrame 分别对应于numpy一维的序列和二维的表结构。

2. pandas的数据结构DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值的）。

下面具体练习：

import pandas as pd

import numpy as np

#Series 对象包含两个主要的属性：index 和 values

w =pd.Series(data=[1,3,5,7],index = ['a','b','c','d'])

print (w)

a    1

b 3

c 5

d 7

dtype: int64

w.index

Index(['a', 'b', 'c', 'd'], dtype='object')

w.values

array([1, 3, 5, 7], dtype=int64)

s = pd.Series([1,3,5,np.nan,6,8])

print(s)

0    1.0

1 3.0

2 5.0

3 NaN

4 6.0

5 8.0

dtype: float64

##非常常用的函数date_range，尤其是在处理时间序列数据时，这个函数的作用就是产生一个##DatetimeIndex，就是时间序列数据的索引

dates = pd.date_range('20130101', periods=6)

# periods：表示你要从这个函数产生多少个日期索引值

dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',

'2013-01-05', '2013-01-06'],

dtype='datetime64[ns]', freq='D')

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

print(df)

	A	B	C	D
2013-01-01	-0.747037	-0.665933	0.506150	-0.047263
2013-01-02	-0.501075	0.843647	0.506725	-0.499766
2013-01-03	-1.171445	0.816434	0.761552	-0.908022
2013-01-04	-0.226046	-0.472765	3.075716	1.063544
2013-01-05	0.108281	-0.122184	-0.011140	-1.287596
2013-01-06	-1.499848