Pandas入门笔记(一)
1 初识Pandas
1.1 Pandas概述
Pandas是数据分析的三大剑客之一,是Python的核心数据分析库,他提供了快速、灵活、明确的数据结构,能够简单、直观、快速地处理各种类型的数据。pandas提供的两个主要数据结构Series(一维数组结构)与DataFrame(二维数组结构),可以处理金融、统计、社会科学、工程等领域里的绝大多数典型案例,并且Pandas是基于NumPy开发的,它可以与其他第三方科学计算库完美集成。
1.2 安装Pandas
- 通过PyPl的pip工具安装
pip install Pandas
- 通过PyCharm开发环境安装
File->Setting->Project nterpreter-> “+”->Available Packages->搜索框搜索“Pandas”->单击Install Packages,即可安装完成。
注意:Pandas需要一些依赖库,所以建议直接安装发行版的Python环境,强推 Anaconda
2 Series对象
Series是Python的Pandas库中的一种数据结构,它类似一维数组,由一组数据以及与这组数据相关的标签(即索引)组成,或者仅有一组数据而没有索引也可以创建一个简单的Series数据。
Series可以存储整数、浮点数、字符串、Python对象等多种类型的数据。
2.1 创建一个Series对象
s = pandas.Series( data , index = index )
- data:表示数据,支持列表、字典、numpy数组、标量值(即只有大小、没有方向的值,也就是一个数值,如 s = pandas.Series(3))。
- index:表示行标签(索引)。
- 返回值:Series对象。
# 实例:
import pandas as pd
s1 = pd.Series([60,70,80])
2.2 手动设置Series索引
创建的Series对象会自动生成整数索引,默认值从0开始至数据长度减1。除了使用默认缩引,还可以通过index参数手动设置索引。
# 实例
import pandas as pd
s1 = pd.Series([ 20,30,40 ] , index = [1, 2, 3])
s2 = pd.Series([ 20,30,40] , index = ['张三','李四','王五'])
2.3 Series 的索引
- Series 位置索引
位置索引是从0开始,【0】是Series数组的第1个数,【1】是Series数组的第2个数,以此类推。
#实例:
import pandas as pd
s1 = pd.Series([20,30,40])
print(s1[1])
#输出结果为:30
- Series 标签索引
Series 标签索引与位置索引方法类似,用“[ ]”表示,里面是索引名称,注意index的数据类型是字符串,特别注意,如果需要获取多个标签索引值,则用“[ [ ] ]”表示(相当于在“[ ]”中包含一个列表)。
#实例:
import pandas as pd
s1 = pd.Series([20,30,40],index=['张三','李四','王五'])
print(s1['张三'])
print(s1[['张三','王五']])
#输出结果:
20
张三 20
王五 40
- Series 切片索引
- 用标签索引做切片,可以包头包尾(即包含了索引开始位置的数据,也包含了索引结束位置的数据)。
# 实例:
import pandas as pd
s1 = pd.Series([20,30,40],index=['张三','李四','王五'])
print(s1['张三':'王五'])
# 输出结果:
张三 20
李四 30
王五 40
- 用位置索引做切片,和list列表的用法一样,可以包头不保尾(即包含了索引开始位置的数据,但不包含索引结束位置的数据)。
# 实例:
import pandas as pd
s2 = pd.Series([ 20, 30, 40,50,60,70,80,90)
print(s2[1:4])
# 输出结果:
1 30
2 40
3 50
2.4 Series 的索引和值
获取Series的索引和值主要使用Series对象的index()函数和values属性。
# 实例:
import pandas as pd
s = pd.Series([10,20,30,40,50,60,70,80,90])
print(s.index)
print(s.values)
# 输出结果:
RangeIndex(start=0, stop=9, step=1 )
[10 20 30 40 50 60 70 80 90]