1. Pandas数据结构
2. Pandas快速入门
3. Pandas Series
4. Pandas DataFrame
5. Pandas Panel
6. Pandas基本功能
7. Pandas描述性统计
8. Pandas函数应用
9. Pandas重建索引
10. Pandas迭代
11. Pandas排序
12. Pandas字符串和文本数据
13. Pandas选项和自定义
14. Pandas索引和选择数据
15. Pandas统计函数
16. Pandas窗口函数
17. Pandas聚合
18. Pandas缺失数据
19. Pandas分组(GroupBy)
20. Pandas合并/连接
21. Pandas级联
22. Pandas日期功能
23. Pandas时间差(Timedelta)
24. Pandas分类数据
25. Pandas可视化
26. Pandas IO工具
27. Pandas稀疏数据
28. Pandas注意事项&窍门
29. Pandas与SQL比较
1. Pandas数据结构
- Series
一维数组,大小不变。 - DataFrame
二维数组,大小和形状可变的表结构
2. Pandas快速入门
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8])
print(s)
import pandas as pd
import numpy as np
dates = pd.date_range('20170101', periods=7)
df = pd.DataFrame(np.random.randn(7,4), index=dates, columns=list('ABCD'))
print(df.head()) #查看表头
print(df.tail(3)) #查看前三行
3. Pandas Series
Series是一维标记的数组,能够保存任何数据类型(integers, strings, floating point numbers, Python objects, 等)。轴标签统称为索引。创建Series的基本方法:
首先导入包:
import numpy as np
import pandas as pd
s = pd.Series(data, index=index)
data 可以是一个dict,ndarray
index 轴标签列表
从dict创建:
从ndarray创建:
- Dataframe
DataFrame是一个二维标记数据结构,是最常用的pandas对象,与Series一样,DataFrame接受许多不同类型的数据(ndarrays, lists, dicts, or Series,2-D numpy.ndarray)
从dict创建:
import numpy as np
import pandas as pd
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
pd.DataFrame(d)
输出:
从字典列表创建
data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
pd.DataFrame(data2)
从元组字典创建
data = {('a', 'b'): {('A', 'B'): 1, ('A', 'C'): 2},
('a', 'a'): {('A', 'C'): 3, ('A', 'B'): 4},
('a', 'c'): {('A', 'B'): 5, ('A', 'C'): 6},
('b', 'a'): {('A', 'C'): 7, ('A', 'B'): 8},
('b', 'b'): {('A', 'D'): 9, ('A', 'B'): 10}}
pd.DataFrame(data)