python mad函数,python科学计算与数据处理

本文介绍了Python数据分析库pandas的基础知识,包括Series和DataFrame数据结构,展示了如何创建、操作和处理这两种数据结构。内容涵盖索引对象、基本功能如重新索引、丢弃指定轴上的项、数据选取和过滤、算术运算、缺失数据处理等,以及描述性统计计算。文章还强调了pandas在处理缺失数据时的灵活性,如填充缺失值和滤除缺失值的方法。
摘要由CSDN通过智能技术生成

《python科学计算与数据处理》由会员分享,可在线阅读,更多相关《python科学计算与数据处理(115页珍藏版)》请在人人文库网上搜索。

1、1,pandas,入门,2,目录,pandas的数据结构介绍 Series DataFrame 索引对象 基本功能 重新索引 丢弃指定轴上的项 索引、选取和过滤 算术运算和数据对齐 函数应用和映射 排序和排名 带有重复值的轴索引,3,目录,汇总和计算描述统计 相关系数与协方差 唯一值、值计数以及成员资格 处理缺失数据 滤除缺失数据 填充缺失数据 层次化索引 重排分级顺序 根据级别汇总统计 使用DataFrame的列 其他有关pandas的话题,4,pandas含有使数据分析工作变得更快更简单的高级数据结构和操作工具。它是基于NumPy构建的,让以NumPy为中心的应用变得更加简单。 因为Ser。

2、ies和DataFrame用的次数非常多,所以将其引入本地命名空间中会更方便,from pandas import Series, DataFrame import pandas as pd,5,pandas的数据结构介绍,Series Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组 与之相关的数据标签(即索引)组成。仅由一组数据即可产生最简单的Series,obj = Series(4, 7, -5, 3) obj 0 4 1 7 2 -5 3 3 dtype: int64,6,pandas的数据结构介绍,Series的字符串表现形式为:索引在左边,值。

3、在右边。由于没有为数据指定索引, 于是会自动创建一个0到N-1 (N为数据的长度)的整数型索引。可以通过Series的 values和index属性获取其数组表示形式和索引对象,obj.values array( 4, 7, -5, 3, dtype=int64) obj.index Int64Index(0, 1, 2, 3, dtype=int64,7,pandas的数据结构介绍,通常希望所创建的Series带有一个可以对各个数据点进行标记的索引,obj2 = Series(4, 7,-5,3, index=d,b,a,c) obj2 d 4 b 7 a -5 c 3 dtype: int。

4、64 obj2.index Index(ud, ub, ua, uc, dtype=object,8,pandas的数据结构介绍,与普通NumPy数组相比,可以通过索引的方式选取Series中的单个或一组值,obj2a -5 obj2d= 6 obj2c,a,d c 3 a -5 d 6 dtype: int64,9,pandas的数据结构介绍,NumPy数组运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)都会保留索引和值之间的链接,obj2 obj2obj2 0 obj2*2 np.exp(obj2) d 403.428793 b 1096.633158 a 0.006738 c 。

5、20.085537 dtype: float64,10,pandas的数据结构介绍,还可以将Series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射。它 可以用在许多原本需要字典参数的函数中,b in obj2 True e in obj2 False,11,pandas的数据结构介绍,如果数据被存放在一个Python字典中,也可以直接通过这个字典来创建Series,sdata = Ohio: 35000, Texas: 71000, Oregon: 16000, Utah: 5000 obj3 = Series(sdata) obj3 Ohio 35000 Oregon 160。

6、00 Texas 71000 Utah 5000 dtype: int64,12,pandas的数据结构介绍,如果只传入一个字典,则结果Series中的索引就是原字典的键(有序排列)。 在例子中,sdata跟states索引相匹配的那3个值会被找出来并放到相应的位置上, 但由于“California”所对应的sdata值找不到,所以其结果就为NaN (即“非数字” (not a number,states = California, Ohio, Oregon, Texas obj4 = Series(sdata, index=states) obj4 California NaN Ohio 3。

7、5000 Oregon 16000 Texas 71000 dtype: float64,13,pandas的数据结构介绍,在pandas中使用 NaN表示缺失(missing) 或NA值。 pandas的isnull和notnull函数可用于检测缺失数据,pd.isnull(obj4) # Series也有类似的实例方法: California True #obj4.isnull() Ohio False Oregon False Texas False dtype: bool pd.notnull(obj4) California False Ohio True Oregon True T。

8、exas True dtype: bool,14,pandas的数据结构介绍,对于许多应用而言,Series域重要的一个功能是:它在算术运算中会自动对齐不同索引 的数据,obj3 obj4 obj3 + obj4 California NaN Ohio 70000 Oregon 32000 Texas 142000 Utah NaN dtype: float64,15,pandas的数据结构介绍,Series对象本身及其索引都有一个name属性,该属性跟pandas其他的关键功能关系非常密切,obj4.name = population obj4.index.name = state obj4。

9、 state California NaN Ohio 35000 Oregon 16000 Texas 71000 Name: population, dtype: float64,16,pandas的数据结构介绍,Series的索引可以通过赋值的方式就地修改,obj 0 4 1 7 2 -5 3 3 obj.index = Bob, Steve, Jeff, Ryan obj Bob 4 Steve 7 Jeff -5 Ryan 3 dtype: int64,17,pandas的数据结构介绍,DataFrame DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值。

10、类 型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。跟其他类似的数据结构相比(如R的data. frame),DataFrame中面向行和面向列的操作基本上是平衡的。其实,DataFrame中的 数据是以一个或多个二维块存放的(而不是列表、字典或別的一维数据结构,18,pandas的数据结构介绍,构建DataFrame的办法有很多,最常用的一种是直接传入一个由等长列表或NumPy数组 组成的字典: 结果DataFrame会自动加上索引(跟Series一样),且全部列会被有序悱列,data=state:Ohio,Ohi。

11、o,Ohio,Nevada,Nevada, year:2000, 2001, 2002, 2001, 2002, pop:1.5, 1.7, 3.6, 2.4, 2.9 frame = DataFrame(data) frame,19,pandas的数据结构介绍,如果指定了列序列,则DataFrame的列就会按照指定顺序迸行排列: 跟Series一样,如果传入的列在数据中找不到,就会产生NA值,DataFrame(data, columns=year, state, pop,frame2=DataFrame(data, columns=year, state, pop, debt, index。

12、=one, two, three, four, five) frame2 frame2.columns Index(uyear, ustate, upop, udebt, dtype=object,20,pandas的数据结构介绍,通过类似字典标记的方式或属性的方式,可以将DataFrame的列获取为一个Series,frame2state one Ohio two Ohio three Ohio four Nevada five Nevada Name: state, dtype: object frame2.year one 2000 two 2001 three 2002 four 20。

13、01 five 2002 Name: year, dtype: int64,21,pandas的数据结构介绍,注意,返冋的Series拥有原DataFrame相同的索引,且其name属性也已经被相应地设置 好了。行也可以通过位置或名称的方式进行获取,比如用索引字段ix,frame2.ixthree year 2002 state Ohio pop 3.6 debt NaN Name: three, dtype: object,22,pandas的数据结构介绍,列可以通过赋值的方式进行修改。例如,可以给那个空的“debt”列赋上一个标量值或一组值,frame2debt = 16.5 frame2。

14、 frame2debt = np.arange(5) frame2,23,pandas的数据结构介绍,将列表或数组赋值给某个列时,其长

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值