python机器学习之10分钟掌握pandas

微信公众号:数据挖掘与分析学习

1.创建对象

通过传递值列表来创建Series,让pandas创建一个默认的整数索引:

通过传递带有日期时间索引和标记列的NumPy数组来创建DataFrame:

通过传递可以转换为类似series的对象的dict来创建DataFrame。

生成的DataFrame的列具有不同的dtypes。

 

2.查看数据

以下是查看frame的顶部和底部行的方法:

 

显示索引,列和基础NumPy数据:

Describe()方法显示了数据的快速统计摘要:

 

数据转置:

 

根据某个轴排序

 

 

3.数据选择

选择一列产生一个Series,相当于df.A.

通过[]选择,对行进行切片。

 

根据标签选择

 

根据位置选择:

 

 

布尔类型索引

使用isin()方法过滤

 

设置值

 

 

4.缺失值

pandas主要使用值np.nan来表示缺失的数据。 它默认不包含在计算中。

重建索引允许您更改/添加/删除指定轴上的索引。 这将返回数据的副本。

 

删除含有缺失值的行

 

填充缺失值

 

获取值为nan的布尔掩码。

 

5.操作

5.1 统计

操作通常排除丢失的数据。

 

执行描述性统计:

使用具有不同维度的对象进行操作并需要对齐。 此外,pandas会自动沿指定维度进行广播。

 

5.2 apply函数

将函数应用于数据:

 

5.3 Histogramming(直方图化)

 

5.4 字符串方法

Series在str属性中配备了一组字符串处理方法,可以轻松地对数组的每个元素进行操作,如下面的代码片段所示。请注意,str中的模式匹配通常默认使用正则表达式(在某些情况下总是使用它们)。

 

6.合并(merge)

6.1 concat

pandas提供了各种工具,可以在连接/合并类型操作的情况下,轻松地将Series,DataFrame和Panel对象与索引和关系代数功能的各种设置逻辑组合在一起。

使用concat()连接pandas对象:

 

6.2 Join

 

6.3 Append

添加行到dataframe

 

7.Grouping

通过“group by”,我们指的是涉及以下一个或多个步骤的过程:

  1. 根据某些标准将数据拆分为组
  2. 将函数独立应用于每个组
  3. 将结果组合到数据结构中

按多列分组形成分层索引,我们再次应用sum函数。

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值