Pandas学习
零基础入门Pandas.
讲解Pandas中的基础概念和常用函数及方法
需要有Python基础,能够定义函数并且明白类和对象的含义
需要Numpy基础
鸿神
纯菜鸟一个,正在学习的路上坚持,如有错误欢迎指出. https://github.com/jackwang0108
本着开源的精神,我的博文向所有人开放,共同学习探讨,如需使用请注明来源.
我发布的都是我的学习笔记,所以如果你发现和一些书有高度相似的语句,那么请放心,因为我学的就是这本书.
如果你是作者,对于我所发布的博客有所意见,请向我提出,我会将涉及你的书的博客删掉.
展开
-
14.Pandas高性能计算:eval()与query()
文章目录Pandas的高性能计算:eval()与query()query()与eval()的设计动机:复合代数式Pandas.eval()实现高性能运算Pandas.eval()函数支持的运算算术运算符比较运算符位运算符对象属性与索引其他运算DataFrame.eval()方法实现列间运算使用DataFrame.eval()方法新增列DataFrame.query()方法性能决定时机Pandas的高性能计算:eval()与query()Numpy与Pandas的底层实际上都是用C语言写成的并为Pytho原创 2020-08-08 13:31:16 · 909 阅读 · 0 评论 -
13.Pandas处理时间序列
文章目录Pandas处理时间序列Python的日期与时间工具原生Python的日期与时间工具:datetime与dateutil创建日期指定输出Numpy的日期与时间工具:datetime64类型Numpy创建日期数组Numpy日期数组的运算Numpy的datetime64对象datetime64对象的创建datetime64对象的单位Pandas的日期和时间工具创建Timestamp对象调用datetime和dateutil的方法Pandas的时间序列:以时间作为索引创建时间序列索引指定时间序列为索引Pa原创 2020-08-08 13:29:51 · 1669 阅读 · 0 评论 -
12.Pandas向量化字符串操作
文章目录Pandas向量化字符串操作Pandas字符串操作简介Pandas字符串属性方法列表Pandas字符串的正则表达式Pandas其他字符串方法Pandas向量化字符串操作Python内置了字符串对象,并且具有一系列内置的强大方法,这让Python处理字符串变得非常容易,在此基础上创建的Pandas同样提供了一系列向量化字符串操作(vectorized string operation)这些都是处理(清洗)现实工作中的数据时不可或缺的功能.在这一节中,我们将介绍Pandas的字符串操作Pand原创 2020-08-08 13:26:22 · 670 阅读 · 0 评论 -
11.Pandas数据透视表
文章目录Pandas数据透视表准备工作什么是数据透视表手工制作一张数据透视表数据透视表语法多维数据透视表数据透视表的其他选项value参数aggfunc参数margin参数margins_name参数泰坦尼克号生还率分析整体情况男女船舱登记生还率排除异常美国人生日分析整体情况每年的人口出生情况创建日期索引不同年代的星期日均出生数各年份平均每天的出生数Pandas数据透视表前面我们讲解了Pandas的GroupBy对象,并且结合行星的例子讲解了Groupby是如何探索数据集内部的关联性了数据透视表(pi原创 2020-08-08 13:24:20 · 911 阅读 · 1 评论 -
10.Pandas累计与分组
文章目录Pandas累计与分组准备工作Pandas的简单累计功能GroupBy操作:分割,应用与组合groupby方法与GroupBy对象groupby方法GroupBy对象遍历操作按列取值调用方法GroupBy对象的高级方法:累计,过滤,转换和应用累计Aggregate过滤filter转换transform引用Apply设置分割的键使用列表,数组,Series或索引作为分组的键使用字典或者Series指定分组行星案例Pandas累计与分组就像前面的例子中所做的,通常我们拿到一个数据集的时候,上手的第一原创 2020-07-28 00:26:20 · 915 阅读 · 0 评论 -
9.Pandas练习:美国个州的统计数据
Pandas练习:美国各州的统计数据前面讲解了那么多Pandas中的内容,下面将结合真实的数据集来进行Pandas数据分析练习,我们这个练习只进行最简单的分析,目的是找出人口密度最高和最稀疏的州数据集为美国各州的统计数据,包括每个州的缩写,人口信息和面积数据集原地址为原书作者的github地址(https://github.com/jakevdp/data-USstates/)这里给出一个链接(按住Ctrl鼠标左键单击访问)我也提供了一个百度网盘下载地址(链接:百度网盘下载地址 ,提取码:666原创 2020-07-23 15:44:24 · 2287 阅读 · 0 评论 -
8.Pandas合并数据集:合并与连接
文章目录Pandas合并数据集:合并与连接关系代数数据连接规则一对一连接多对一连接多对多连接设置数据合并的键on参数left_on与right_on参数Left_index和Right_index参数join方法设置数据连接的集合操作规则内连接外连接左右连接重复列名Pandas合并数据集:合并与连接Pandas的一个基本特性就是提供了基于内存的高性能的内存式数据连接(join)与合并操作(merge).Pandas中的这类操作和数据库非常相似Pandas的主接口就是pd.merge函数,下面将基于实例原创 2020-07-23 15:36:34 · 1197 阅读 · 0 评论 -
7.Pandas合并数据集:Cancat与Append操作
文章目录Pandas合并数据集:Concat与Append操作回顾:Numpy数组的合并Concat()函数捕捉重复索引忽略索引添加多级索引交集合并Append()方法Pandas合并数据集:Concat与Append操作我们通常使用Pandas和Numpy两个库来对获取到的数据进行清洗,其中不仅包括去除缺失值,最为重要也是最有趣的一点就是将不同来源的数据进行合并对于不同来源的数据进行合并不仅包括简单的拼接在一起,还包括像数据库一样连接(join)与合并(merge)操作具有重复的数据集Pandas原创 2020-07-23 15:35:03 · 824 阅读 · 0 评论 -
6.Pandas的层级索引
文章目录Pandas的层级索引多级索引压堆与解压堆多级索引的创建直接创建具有多级索引的Series对象指定二维index参数利用键为元素的字典创建创建MultiIndex对象from_arrays方法from_tuple方法from_product方法多级索引的等级名称多级列索引多级索引的取值与切片取单个值取局部值花哨的索引索引器iloc索引器loc索引器IndexSlice对象多级索引行列转换有序索引和无序索引索引的stack与unstack索引的设置与重置多级索引的数据累计方法Pandas的层级索引原创 2020-07-23 15:33:11 · 945 阅读 · 0 评论 -
3.Pandas数据取值与选择
文章目录Pandas数据取值与选择1.Series对象数据选取方法将Series对象看做字典取值添加值检索值和键将Sereies对象看做一维数组将显式索引作为切片将隐式数字作为切片掩码操作花哨的索引索引器:loc,iloc和ixloc索引器iloc索引器ix索引器2.DataFrame对象数据选取方法将DataFrame看做字典取值添加值将DataFrame看做二维数组查询值转置获取值使用索引器iloc索引器loc索引器Pandas数据取值与选择作为数据分析这一系列的内容,在学习Pandas之前应该已经原创 2020-07-18 18:41:13 · 4437 阅读 · 0 评论 -
2.Pandas的三个对象
文章目录Pandas的三个对象1.概述2.Pandas的Series对象Series对象的创建Series对象数据的获取获取Series对象的值获取Series对象的索引获取Series对象元素的值Series是Numpy数组的加强版Series是特殊的字典3.Pandas的DataFrame对象DataFrame是通用的Numpy数组DataFrame是特殊的字典DataFrame对象的创建4.Pandas的Index对象Index对象的创建Index对象的属性将Index对象看做不可变的数组将Index原创 2020-07-18 18:39:30 · 913 阅读 · 0 评论 -
1.Pandas入门
文章目录Pandas入门1.综述2.Pandas的学习目标Pandas入门1.综述在前面我们学习了Numpy,Numpy对于处理数据非常的强大,与Matlab相比因为支持Python的API,因此在操作上更加的简单.与纯粹的Python的列表相比又用C语言重写了底层,因此又具有更加快速的优势.可是我们发现Numpy处理的对象都是非常良好的数据.但是在我们正常的使用Numpy来分析处理数据的时候,数据往往并不是良好的.例如:我们如果用二维数组来储存一个灰度图像的话,这个图像可能有一部分因为损坏而原创 2020-07-18 18:38:36 · 645 阅读 · 0 评论 -
5.Pandas处理缺失值
文章目录Pandas处理缺失值如何标记缺失值全局掩码使用标签值Pandas的缺失值Python的None对象浮点数据类型的NaNNone与NaN的差异处理缺失值发现缺失值剔除缺失值填充缺失值Pandas处理缺失值我们在现实生活中真正需要处理的数据并不是十全十美的,往往会出现数据缺失的现象,更为甚者,处理不同数据源缺失值的方法还不同本节将介绍一些处理缺失值的通用规则,Pandas对缺失值的表现形式以及Pandas子代的几个处理缺失值的工具的用法.一般来说涉及的缺失值有三种形式:null,NaN和NA原创 2020-07-18 18:37:10 · 945 阅读 · 0 评论 -
4.Pands数值运算方法
文章目录Pandas数值运算方法通用函数:保留索引通用函数:索引对齐Series对象的索引对齐DataFrame对象的索引对齐DataFrame对象与Series对象的索引对齐Pandas对象的方法Pandas数值运算方法Numpy相比于Python内置列表实现了元素的快速运算,在此基础上,Pandas实现了Numpy数组的显式索引基于Pandas的显式索引给予了我们强大的数据选择能力而Pandas是基于Numpy实现的,因此Pandas还实现了数组运算的索引保留和对齐.对于一元运算,运算结果将保原创 2020-07-18 18:36:12 · 657 阅读 · 0 评论