python mad函数,python科学计算与数据处理

最新推荐文章于 2024-04-16 14:47:50 发布

倩Sur

最新推荐文章于 2024-04-16 14:47:50 发布

阅读量1.1k

点赞数

文章标签： python mad函数

本文介绍了Python数据分析库pandas的基础知识，包括Series和DataFrame数据结构，展示了如何创建、操作和处理这两种数据结构。内容涵盖索引对象、基本功能如重新索引、丢弃指定轴上的项、数据选取和过滤、算术运算、缺失数据处理等，以及描述性统计计算。文章还强调了pandas在处理缺失数据时的灵活性，如填充缺失值和滤除缺失值的方法。

摘要由CSDN通过智能技术生成

《python科学计算与数据处理》由会员分享，可在线阅读，更多相关《python科学计算与数据处理(115页珍藏版)》请在人人文库网上搜索。

1、1,pandas,入门,2,目录,pandas的数据结构介绍 Series DataFrame 索引对象基本功能重新索引丢弃指定轴上的项索引、选取和过滤算术运算和数据对齐函数应用和映射排序和排名带有重复值的轴索引,3,目录,汇总和计算描述统计相关系数与协方差唯一值、值计数以及成员资格处理缺失数据滤除缺失数据填充缺失数据层次化索引重排分级顺序根据级别汇总统计使用DataFrame的列其他有关pandas的话题,4,pandas含有使数据分析工作变得更快更简单的高级数据结构和操作工具。它是基于NumPy构建的，让以NumPy为中心的应用变得更加简单。因为Ser。

2、ies和DataFrame用的次数非常多，所以将其引入本地命名空间中会更方便,from pandas import Series, DataFrame import pandas as pd,5,pandas的数据结构介绍,Series Series是一种类似于一维数组的对象，它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即可产生最简单的Series,obj = Series(4, 7, -5, 3) obj 0 4 1 7 2 -5 3 3 dtype: int64,6,pandas的数据结构介绍,Series的字符串表现形式为：索引在左边，值。

3、在右边。由于没有为数据指定索引，于是会自动创建一个0到N-1 (N为数据的长度)的整数型索引。可以通过Series的 values和index属性获取其数组表示形式和索引对象,obj.values array( 4, 7, -5, 3, dtype=int64) obj.index Int64Index(0, 1, 2, 3, dtype=int64,7,pandas的数据结构介绍,通常希望所创建的Series带有一个可以对各个数据点进行标记的索引,obj2 = Series(4, 7,-5,3, index=d,b,a,c) obj2 d 4 b 7 a -5 c 3 dtype: int。

4、64 obj2.index Index(ud, ub, ua, uc, dtype=object,8,pandas的数据结构介绍,与普通NumPy数组相比，可以通过索引的方式选取Series中的单个或一组值,obj2a -5 obj2d= 6 obj2c,a,d c 3 a -5 d 6 dtype: int64,9,pandas的数据结构介绍,NumPy数组运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)都会保留索引和值之间的链接,obj2 obj2obj2 0 obj2*2 np.exp(obj2) d 403.428793 b 1096.633158 a 0.006738 c 。

5、20.085537 dtype: float64,10,pandas的数据结构介绍,还可以将Series看成是一个定长的有序字典，因为它是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中,b in obj2 True e in obj2 False,11,pandas的数据结构介绍,如果数据被存放在一个Python字典中，也可以直接通过这个字典来创建Series,sdata = Ohio: 35000, Texas: 71000, Oregon: 16000, Utah: 5000 obj3 = Series(sdata) obj3 Ohio 35000 Oregon 160。

6、00 Texas 71000 Utah 5000 dtype: int64,12,pandas的数据结构介绍,如果只传入一个字典，则结果Series中的索引就是原字典的键(有序排列)。在例子中，sdata跟states索引相匹配的那3个值会被找出来并放到相应的位置上，但由于“California”所对应的sdata值找不到，所以其结果就为NaN (即“非数字” (not a number,states = California, Ohio, Oregon, Texas obj4 = Series(sdata, index=states) obj4 California NaN Ohio 3。

7、5000 Oregon 16000 Texas 71000 dtype: float64,13,pandas的数据结构介绍,在pandas中使用 NaN表示缺失(missing) 或NA值。 pandas的isnull和notnull函数可用于检测缺失数据,pd.isnull(obj4) # Series也有类似的实例方法: California True #obj4.isnull() Ohio False Oregon False Texas False dtype: bool pd.notnull(obj4) California False Ohio True Oregon True T。

8、exas True dtype: bool,14,pandas的数据结构介绍,对于许多应用而言，Series域重要的一个功能是：它在算术运算中会自动对齐不同索引的数据,obj3 obj4 obj3 + obj4 California NaN Ohio 70000 Oregon 32000 Texas 142000 Utah NaN dtype: float64,15,pandas的数据结构介绍,Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系非常密切,obj4.name = population obj4.index.name = state obj4。

9、 state California NaN Ohio 35000 Oregon 16000 Texas 71000 Name: population, dtype: float64,16,pandas的数据结构介绍,Series的索引可以通过赋值的方式就地修改,obj 0 4 1 7 2 -5 3 3 obj.index = Bob, Steve, Jeff, Ryan obj Bob 4 Steve 7 Jeff -5 Ryan 3 dtype: int64,17,pandas的数据结构介绍,DataFrame DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值。

10、类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典(共用同一个索引)。跟其他类似的数据结构相比(如R的data. frame)，DataFrame中面向行和面向列的操作基本上是平衡的。其实，DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或別的一维数据结构,18,pandas的数据结构介绍,构建DataFrame的办法有很多，最常用的一种是直接传入一个由等长列表或NumPy数组组成的字典：结果DataFrame会自动加上索引(跟Series一样)，且全部列会被有序悱列,data=state:Ohio,Ohi。

11、o,Ohio,Nevada,Nevada, year:2000, 2001, 2002, 2001, 2002, pop:1.5, 1.7, 3.6, 2.4, 2.9 frame = DataFrame(data) frame,19,pandas的数据结构介绍,如果指定了列序列，则DataFrame的列就会按照指定顺序迸行排列: 跟Series一样，如果传入的列在数据中找不到，就会产生NA值,DataFrame(data, columns=year, state, pop,frame2=DataFrame(data, columns=year, state, pop, debt, index。

12、=one, two, three, four, five) frame2 frame2.columns Index(uyear, ustate, upop, udebt, dtype=object,20,pandas的数据结构介绍,通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个Series,frame2state one Ohio two Ohio three Ohio four Nevada five Nevada Name: state, dtype: object frame2.year one 2000 two 2001 three 2002 four 20。

13、01 five 2002 Name: year, dtype: int64,21,pandas的数据结构介绍,注意，返冋的Series拥有原DataFrame相同的索引，且其name属性也已经被相应地设置好了。行也可以通过位置或名称的方式进行获取，比如用索引字段ix,frame2.ixthree year 2002 state Ohio pop 3.6 debt NaN Name: three, dtype: object,22,pandas的数据结构介绍,列可以通过赋值的方式进行修改。例如，可以给那个空的“debt”列赋上一个标量值或一组值,frame2debt = 16.5 frame2。

14、 frame2debt = np.arange(5) frame2,23,pandas的数据结构介绍,将列表或数组赋值给某个列时，其长