自己用来总结的pandas笔记,个人向,记得比较简单
目录
-
简介
- 基于numpy构建,兼容各种数据库,可之间读取数据
-
数据结构
-
series
- 带标签的一维数组,可保存任何类型,更像有顺序的字典
- index 标签(类型为rangeindex) values 值(类型为数组)index值一样调取会返回两个值
- 创建
- 字典创建 dic = {'a':1,'b',2} s= pd.Series(dic)
- 一维数组创建 s =pd.Series(np.random.rand(10),index=list('abcdefh'))#list数量需与数组数量一致
- name 创建数组的名称,srt格式 ,没有则输出none ; s2.rename(ar) 重命名数组
- 标量创建 pd.Series(100,index= range(4))
- print(s) 会输出name,dtype
- 索引
- 下标索引 type(s[6]) 显示numpy 的浮点型;s[7].dtype 为float
- 标签索引
- 选取多个标签,用两个中括号 s[['a','b']]
- 多标签索引结果是新的数组
- 切片索引
- 标签 s['a':'c']
- 下表 s[1:4]左闭右开 ,共三个
- 默认数字是下标
- 布尔型索引
- bs = s.isnull() 或notnull s[bs] ;s [s>50] #数组判断后,返回有布尔值组成的新数组
- 基本技巧
- 数据查看 s.head () 查看前五条数据 s.tail() 查看最后五条
- 重新索引 reindex() 根据新的索引重新排序
- 对齐 根据index自动对齐
- 删除 drop('n',inplace=true)inplace 是否代替原值,不代替会生成新的副本
- 添加
- 直接索引添加
- .append() 直接添加一个数组,不改变之前数组
-
dataframe (二维数组,每列值为series)
- 简介
- 表格型数据,有标签的二维数组
- 带有行标签index,列标签ndarray
- .index查看行标签 .columns 查看列表去 .values查看值
- 创建
- 数组/list组成的字典创建
- pandas.Dataframe(data1,index=['a','b','c']) columns,重新指定列或列的数据
- 由series组成字典
- data1={'one':pd.Series(np.random.rand(2),index=['a','b']),'two':pd.Series(np.random.rand(3),index=['a','b',c])}
- 二维数组直接创建
- ar = np.random.rand(9).reshape(3,3) df = pd.DataFrame(ar,index =['a','b','c'],columns=['one'
- 数组/list组成的字典创建
- 简介
-