萝卜头学python:pandas 对EXCEL处理
1.Pandas概述
Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建。
Pandas纳入大量库和标准数据模型,提供高效的操作数据集所需的工具。
Pandas提供大量能使我们快速便捷地处理数据的函数和方法。
Pandas是字典形式,基于NumPy创建,让NumPy为中心的应用变得更加简单。
2.Pandas安装
pip3 install pandas
3.Pandas引入
import pandas as pd#为了方便实用pandas 采用pd简写
4.Pandas数据结构
4.1Series
Series 就如同列表一样,一系列数据,每个数据对应一个索引值。
Series 就是“竖起来”的 list:
import numpy as np
import pandas as pd
s=pd.Series([1,2,3,np.nan,5,6])
print(s)
#索引在左边 值在右边'''
0 1.0
1 2.0
2 3.0
3 NaN
4 5.0
5 6.0
4.2DataFrame
DataFrame是表格型数据结构,包含一组有序的列,每列可以是不同的值类型。DataFrame有行索引和列索引,可以看成由Series组成的字典。
dates=pd.date_range('20180310',periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A','B','C','D'])#生成6行4列位置
print(df)#输出6行4列的表格
'''
A B C D
2018-03-10 -0.092889 -0.503172 0.692763 -1.261313
2018-03-11 -0.895628 -2.300249 -1.098069 0.468986
2018-03-12 0.084732 -1.275078 1.638007 -0.291145
2018-03-13 -0.561528 0.431088 0.430414 1.065939
2018-03-14 1.485434 -0.341404 0.267613 -1.493366
2018-03-15 -1.671474 0.110933 1.688264 -0.910599
'''
print(df['B'])
'''
2018-03-10 -0.927291
2018-03-11 -0.406842
2018-03-12 -0.088316
2018-03-13 -1.631055
2018-03-14 -0.929926
2018-03-15 -0.010904
Freq: D, Name: B, dtype: float64
'''
5.Pandas选择数据
dates=pd.date_range('20180310',periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A','B','C','D'])#生成6行4列位置
print(df)
'''
A B C D
2018-03-10 -0.520509 -0.136602 -0.516984 1.357505
2018-03-11 0.332656 -0.094633 0.382384 -0.914339
2018-03-12 0.499960 1.576897 2.128730 2.197465
2018-03-13 0.540385 0.427337 -0.591381 0.126503
2018-03-14 0.191962 1.237843 1.903370 2.155366
2018-03-15 -0.188331 -0.578581 -0.845854 -0.056373
'''
print(df['A'])#或者df.A 选择某列
'''
2018-03-10 -0.520509
2018-03-11 0.332656
2018-03-12 0.499960
2018-03-13 0.540385
2018-03-14 0.191962
2018-03-15 -0.188331
'''
切片选择
print(df[0:3], df['20180310':'20180314'])#两次进行选择 第一次切片选择 第二次按照筛选条件进行选择
'''
A B C D
2018-03-10 -0.520509 -0.136602 -0.516984 1.357505
2018-03-11 0.332656 -0.094633 0.382384 -0.914339
2018-03-12 0.499960 1.576897 2.128730 2.197465
A B C D
2018-03-10 -0.520509 -0.136602 -0.516984 1.357505
2018-03-11 0.332656 -0.094633 0.382384 -0.914339
2018-03-12 0.499960 1.576897 2.128730 2.197465
2018-03-13 0.540385 0.427337 -0.591381 0.126503
2018-03-14 0.191962 1.237843 1.903370 2.155366
'''
根据标签loc-行标签进行选择数据
print(df.loc['20180312', ['A','B']])#按照行标签进行选择 精确选择
'''
A 0.499960
B 1.576897
Name: 2018-03-12 00:00:00, dtype: float64
'''