安装更新pandas:pip install pandas --upgrade i https://mirrors.163.com/pypi/simple/
官方https://packaging.python.org/tutorials/installing-packages/
本文来自网易微专业数据分析之pandas学习笔记
为什么用Pandas
- 快速高效的数据结构
- 智能的数据处理功能
- 方便的文件存取功能
- 科研及商业应用广泛
两个基本的数据结构:
Series和DataFrame
安装
pip install pandas #windows
导入pandas模块
import pandas as pd
Pandas的基础类型1---Series
创建一个Series类型的数据:
1.Series()Series()里直接填一个由数字组成列表,
data=pd.Series([1,3,5,7])
2.或设变量:
list_data=[1,3,5,7]
data=pd.Series(list_data)
获取Series数据的值.values:
print(data.values)
获取Series数据的索引值.index
print(data.index)
>>> import pandas as pd
>>> data=pd.Series([1,2,3,4])
>>> print(data.values)
[1 2 3 4]
>>> print(data.index)
RangeIndex(start=0, stop=4, step=1)
>>>
创建特殊的索引值(非数字时)
list_data=[1,3,5,7]
data=pd.Series(list_data,index=['a','j','k','z'])
print(data)
>>> list_data=[1,3,5,7]
>>> data=pd.Series(list_data,index=['a','j','k','z'])
>>> print(data)
a 1
j 3
k 5
z 7
dtype: int64
修改索引值:
data.index=['j','z','x','k']
print(data)
>>> data.index=['j','z','x','k']
>>> print(data)
j 1
z 3
x 5
k 7
dtype: int64
获取Series数据的长度
print(len(data))
获取数组中某个数据
print(data['a']) #rint(data[' j']) #输入其索引号
输出:1
获取数组中多个数据
print(data[0:2]) #以切片的方式,索引位连续的时候用
或者:
print(data[['z','k']]) #不只一个时,里面用一个列表,以逗号隔开,标出任意索引位,不连续时用列表,挑着用
计算重复元素出现的次数 #很常用
print(data.value_counts())
判断某个索引值是否存在
'a' in data
与python字典相似,但却是有序的.
从字典创建一个SeriesSeries类型的数据 #很常用
给数据传入索引值(相当于给字典增加一个key)
dict_data={'Beijing': 1000, 'Shanghai': 800, 'Shenzhen': 500}
index_list=['Beijing', 'Shanghai', 'Shenzhen','Guangzhou']
data=pd.Series(dict_data,index=index_list)
(在列表中单引号和双引号可同时用,无异常)
检测哪些数据是缺失的(空的)
print(data.isnull())
检测非空用.notnull()
数组运算
乘:print(data*2)
即数组内各value均乘以2,索引是不变的
Series数组支持numpy数组运算
把此data当成numpy的数组进行运算
print(np.square(data)) (求平方)
数组相加
自动把两数组中各索引值相同的进行value的相加,无匹配的依然保留.
?如何添加数组元素?
设置Series数组对象的名称name及其索引的名称
data.name='City Data'
data.index.name='City'
(本节Series完,下一节DataFrame:https://blog.csdn.net/ahmcwt/article/details/104630629)