pandas filter_Pandas基础入门(一)

最新推荐文章于 2024-03-20 00:41:54 发布

weixin_39620334

最新推荐文章于 2024-03-20 00:41:54 发布

阅读量1.1k

点赞数

一、Pandas简介

Pandas是一个强大的分析结构化数据的工具集；

(Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法，能够快速便捷地处理数据)

它的使用基础是Numpy（提供高性能的矩阵运算）；

用于数据挖掘和数据分析，同时也提供数据清洗功能

文末放上代码、参考资料和相关数据文件

#全部行都能输出

二、基本操作

1.导入Pandas库并简写为pd，并输出版本号

import

'1.0.3'

2.从列表创建Series

arr

三、文件读取与写入

1. 读取

1) csv格式

df

2) txt格式

df_txt

3) xls或xlxs格式

df_excel

2. 写入

1) csv格式

df

2) xls或xlsx格式

df

三、基本数据结构

1. 什么是Series

创建Series

1) 创建一个Series

#通过ndarray创建Series

ser1

ser1

#通过字典创建Series

ser2

类 ndarray 的对象传入后也会转换为 ndarray 来创建 Series 。

#通过列表创建Series

ser3

# 通过标量创建Series 当data只包含一个元素时,Series对象的定义支持"循环补齐"

创建Series的方法

1 通过ndarray创建,可指定索引,但是指定索引的个数要和ndarray对象里边元素的个数一致
2 通过字典创建,不需要指定索婷,字典的键即索引
3 通过类ndarray对象创建,比如说列表,可以指定索引,但是之低昂索引的个数要和ndarray里边元素的个数一致
4 参数data可以是一个单独的标量,传入索引后,每个索引对应的都是统一数值的标量

2) 访问Series属性

Series 数组和字典特性

Series可以进行索引和切片操作
Series 同时也像一个固定大小的 dict ，可以通过索引标签获取和设置值
Series 与 ndarray 非常相似，是大多数 NumPy 函数的有效参数

3) 数组特性

0.5113156521513135

4) 字典特性

Series 同时也像一个固定大小的 dict ，可以通过索引标签获取和设置值：

1.0

'a'

True

'h'

False

没有这个键

5) 调用方法

-0.060346936266615005

Series有相当多的方法可以调用：

print

['T', 'a', 'abs', 'add', 'add_prefix', 'add_suffix', 'agg', 'aggregate', 'align', 'all', 'any', 'append', 'apply', 'argmax', 'argmin', 'argsort', 'array', 'asfreq', 'asof', 'astype', 'at', 'at_time', 'attrs', 'autocorr', 'axes', 'b', 'between', 'between_time', 'bfill', 'bool', 'c', 'clip', 'combine', 'combine_first', 'convert_dtypes', 'copy', 'corr', 'count', 'cov', 'cummax', 'cummin', 'cumprod', 'cumsum', 'd', 'describe', 'diff', 'div', 'divide', 'divmod', 'dot', 'drop', 'drop_duplicates', 'droplevel', 'dropna', 'dtype', 'dtypes', 'duplicated', 'e', 'empty', 'eq', 'equals', 'ewm', 'expanding', 'explode', 'factorize', 'ffill', 'fillna', 'filter', 'first', 'first_valid_index', 'floordiv', 'ge', 'get', 'groupby', 'gt', 'hasnans', 'head', 'hist', 'iat', 'idxmax', 'idxmin', 'iloc', 'index', 'infer_objects', 'interpolate', 'is_monotonic', 'is_monotonic_decreasing', 'is_monotonic_increasing', 'is_unique', 'isin', 'isna', 'isnull', 'item', 'items', 'iteritems', 'keys', 'kurt', 'kurtosis', 'last', 'last_valid_index', 'le', 'loc', 'lt', 'mad', 'map', 'mask', 'max', 'mean', 'median', 'memory_usage', 'min', 'mod', 'mode', 'mul', 'multiply', 'name', 'nbytes', 'ndim', 'ne', 'nlargest', 'notna', 'notnull', 'nsmallest', 'nunique', 'pct_change', 'pipe', 'plot', 'pop', 'pow', 'prod', 'product', 'quantile', 'radd', 'rank', 'ravel', 'rdiv', 'rdivmod', 'reindex', 'reindex_like', 'rename', 'rename_axis', 'reorder_levels', 'repeat', 'replace', 'resample', 'reset_index', 'rfloordiv', 'rmod', 'rmul', 'rolling', 'round', 'rpow', 'rsub', 'rtruediv', 'sample', 'searchsorted', 'sem', 'set_axis', 'shape', 'shift', 'size', 'skew', 'slice_shift', 'sort_index', 'sort_values', 'squeeze', 'std', 'sub', 'subtract', 'sum', 'swapaxes', 'swaplevel', 'tail', 'take', 'to_clipboard', 'to_csv', 'to_dict', 'to_excel', 'to_frame', 'to_hdf', 'to_json', 'to_latex', 'to_list', 'to_markdown', 'to_numpy', 'to_period', 'to_pickle', 'to_sql', 'to_string', 'to_timestamp', 'to_xarray', 'transform', 'transpose', 'truediv', 'truncate', 'tshift', 'tz_convert', 'tz_localize', 'unique', 'unstack', 'update', 'value_counts', 'values', 'var', 'view', 'where', 'xs']

2.DataFrame

DataFrame是一个可以包含不同数据类型列的二维数据结构，类似于电子表格或SQL表，或Series对象的字典集合,是最常用的pandas对象。

1)创建DataFrame

和 Series 类似，创建 DataFrame 时，也接受许多不同类的参数。虽然在绝大多数情况下，我们通过读取文件来创建 DataFrame。 DataFrame 可以从序列类的数据构建：

方法一 : 包含列表的字典创建

#使用包含列表的字典创建DataFrame时,各个列表内元素个数必须一致

方法二 : 包含series的类字典创建

data

data = {'员工姓名':pd.Series(['赵一','钱明','周元','李雷'],index = ['001','002','003','004']),  #指定index与不指定index的区别
       '销售业绩':pd.Series([30000,20000,50000],index = ['001','002','003']),
       '提成收入':pd.Series([6000,4000,10000],index = ['001','002','003'])}
df2 = pd.DataFrame(data)
df2

pd

pd

df

2) 访问索引和列名

df

df

df

3) DataFrame 列操作

DataFrame 列的选取，设置和删除列的工作原理与类似的 dict 操作相同。

df

type

pandas.core.frame.DataFrame

type

pandas.core.series.Series

4) 增加列

df2

df2

df2

df2

#如果新增的列中传入的是 Series 并且索引不完全相同，那么会默认按照索引对齐,没有指定填充值的位置默认用空值进行填充：

insert方法插入列

df2

df2

df2

删除或移出列

del

df2

df2

df2

df2

分配列的操作

assign方法,依据现有列派生的新列

df2

df2

df2

df2

5) 调用属性和方法

df2

df2

df2

df2

(4, 9)

df2

6) 索引/选择

索引/选择的基本语法如下：

这是Pandas中非常强大的特性，不理解这一特性有时就会造成一些麻烦
df3 = pd.DataFrame({'A':[1,2,3]},index=[1,2,3])
df4 = pd.DataFrame({'A':[1,2,3]},index=[3,1,2])
df3-df4 #由于索引对齐，因此结果不是0

根据类型选择列

df

df

7)基于标签的索引

.loc 是基于标签的索引，必须使用数据的标签属性，否则会返回一个异常。

基于标签索引的基本语法 : df.loc[行索引,列索引]

逗号之前是切取的行信息,逗号之后是切取的列信息

只切取行信息返回所有列信息的时候,列索引和逗号可以省略

只切取列信息返回所有行信息的时候,行索引和冒号不能省略,用冒号表示切取所有行.

df2

df2

直接切取一行信息的时候 - df["行信息":"行信息"] 返回是dataframe
- (基于标签的索引)df.loc["行信息"] 返回的是series

df2

df2

df2

df2

df2

df2

df2

df2

指向具体一列的某个记录值 df.at[行索引,列索引]

df2

'赵一'

df2

125.0

df2

'赵一'

df2

.loc 同时也可以用来扩展数据的列：

df2

新建一列,新建列里边的信息是基于某一已经存在的列,并且对该存在列中的每个信息进行相同的函数(X)操作,用apply()函数,函数特点是它的参数是其他函数(X)

df2

df2

.loc 同时也可以用来扩展数据的行：

df2

df2

8) 将Series转换为DataFrame

使用T符号可以转置

四、常用基本函数

df

1) head和tail

df

df

df

2) unique和nunique

df

df

3) count和value_counts

df

df

df

4) describe和info

df

df

df

df

5) idxmax和nlargest

df

df

6) clip和replace

clip和replace是两类替换函数

clip是对超过或者低于某些值的数进行截断

df

df

df

16.924244897959188

replace是对某些值进行替换

df

df

通过字典，可以直接在表中修改

df

7) apply函数

apply是一个自由度很高的函数，对于Series，它可以迭代每一列的值操作：

df

对于DataFrame，它可以迭代每一个列操作：

df

五、排序

1) 索引排序

df

df

df

2) 值排序

df

多个值排序，即先对第一层排，在第一层相同的情况下对第二层排序

df

六、问题与练习

1. 问题

【问题一】 Series和DataFrame有哪些常见属性和方法？

【问题二】 value_counts会统计缺失值吗？

【问题三】与idxmax和nlargest功能相反的是哪两组函数？

【问题四】在常用函数一节中，由于一些函数的功能比较简单，因此没有列入，现在将它们列在下面，请分别说明它们的用途并尝试使用。

sum/mean/median/mad/min/max/abs/std/var/quantile/cummax/cumsum/cumprod

【问题五】 df.mean(axis=1)是什么意思？它与df.mean()的结果一样吗？第一问提到的函数也有axis参数吗？怎么使用？

2. 练习

【练习一】现有一份关于美剧《权力的游戏》剧本的数据集，请解决以下问题：

（a）在所有的数据中，一共出现了多少人物？

（b）以单元格计数（即简单把一个单元格视作一句），谁说了最多的话？

（c）以单词计数，谁说了最多的单词？

df5

（a）在所有的数据中，一共出现了多少人物？

（b）以单元格计数（即简单把一个单元格视作一句），谁说了最多的话？

（c）以单词计数，谁说了最多的单词？

【练习二】现有一份关于科比的投篮数据集，请解决如下问题：

（a）哪种action_type和combined_shot_type的组合是最多的？

（b）在所有被记录的game_id中，遭遇到最多的opponent是一个支？

df6

（a）哪种action_type和combined_shot_type的组合是最多的？

（b）在所有被记录的game_id中，遭遇到最多的opponent是一个支？

代码：

https://github.com/CrescentRuby/pandas/blob/master/Pandas%E5%9F%BA%E7%A1%80(%E4%B8%80).ipynbgithub.com

六、参考资料

1、Python for Data Analysis Wes McKinney著

2、Pandas Cookbook Theodore Petrou著

3、User Guide Pandas开发团队编写

weixin_39620334

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
pandas filter_Pandas基础入门(一)

一、Pandas简介Pandas是一个强大的分析结构化数据的工具集；(Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法，能够快速便捷地处理数据)它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能文末放上代码、参考资料和相关数据文件#全部行都能输出二、基本操作1.导入Pandas库并简写为pd，并输出版本号im...
复制链接

扫一扫