第3章 Pandas数据处理(3.1-3.2)_Python数据科学手册学习笔记

第2章介绍的NumPy和它的ndarray对象. 为多维数组提供了高效的存储和处理方法. Pandas是在NumPy的基础上建立的新程序库, 提供DataFrame数据结构. DataFrame带行标签(索引),列标签(变量名),支持相同数据类型和缺失值的多维数组. 和电子表格很像.
NumPy的ndarray提供处理数据常见功能. 但对比如添加标签,处理缺失值,分组,透视等处理起来较难.

3.1 Pandas安装

使用Anaconda, Pandas已经安装好.

检测Pandas版本号

import pandas as pd
import numpy as np
print(pd.__version__,np.__version__)                    # 不是vision
0.23.0 1.14.3

3.2 Pandas对象介绍

Pandas三个基础数据结构 : Series, DataFrame, Index (注意字母大小写)

3.2.1 Pandas的 Series对象

Series是一个带索引数据的一维数组

# 可以用一个数组创建Series对象
data1 = pd.Series([0.25,0.5,0.75,1])
data2 = np.array([0.25,0.5,0.75,1])
data3 = [0.25,0.5,0.75,1]
print("data1的数据类型是:",type(data1),'---',data1)
print("data2的数据类型是:",type(data2),'---',data2)
print("data3的数据类型是:",type(data3),'---',data3)
data1的数据类型是: <class 'pandas.core.series.Series'> --- 0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64
data2的数据类型是: <class 'numpy.ndarray'> --- [0.25 0.5  0.75 1.  ]
data3的数据类型是: <class 'list'> --- [0.25, 0.5, 0.75, 1]

从上面输出结构看,Series将一组数据和一组索引绑定在一起,可用values属性和index属性属性获取. (注意字母大小写和是否为复数格式)

data1.values
array([0.25, 0.5 , 0.75, 1.  ])
data1.index
RangeIndex(start=0, stop=4, step=1)

可以通过中括号索引标签获取值

data1[2]  # 第3个数值
0.75
data1[1:3]  # 第2-3个  ,含左不含右
1    0.50
2    0.75
dtype: float64
data[:3]   # 前3个
0    0.25
1    0.50
2    0.75
dtype: float64

Series和NumPy的一维数组基本相同, 本质差别在索引上.
NumPy数组是***隐式定义***的***整数索引***获取数值, 而Pandas的Series对象用一种***显示定义***的索引与数值关联.

显示索引 : 索引不仅仅是整数, 还可以是***任何想要的类型***.

data = pd.Series([0.25,0.5,0.75,1,'nihao'],index=['a','a','c',
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

python技巧(数据分析及可视化)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值