pandas入门(十三)

上一篇:pandas入门(十二)

计算指标/哑变量

另一种常用于统计建模或机器学习的转换方式是:将分类变量转换为“哑变量”或“指标矩阵”。

DataFrame的某一列中含有k个不同的值,则可以派生出一个k列矩阵或 DataFrame(其值全为1和0)。pandas有一个get_dummies函数可以实现该功能。使用之前的一个DataFrame例子
在这里插入图片描述

=====================================
给指标DataFrame的列加上一个前缀,以便能够跟其他数据进行 合并。get_dummies的prefix参数可以实现该功能
在这里插入图片描述

=====================================
对于很大的数据,用这种方式构建多成员指标变量就会变得非常慢。最 好使用更低级的函数,将其写入NumPy数组,然后结果包装在DataFrame中。

字符串操作

Python能够成为流行的数据处理语言,部分原因是其简单易用的字符串和文本处理功能。大部分文本运算都直接做成了字符串对象的内置方法。对于更为复杂的模式匹配和文本操作,则可能需要用到正则表达式。pandas对此进行了加强,它使你能够对整组数据应用字符串表达式和正则表达式,而且能处理缺失数据。

字符串对象方法

对于许多字符串处理和脚本应用,内置的字符串方法已经能够满足要求了。以逗号分隔的字符串可以用split拆分成数段:

在这里插入图片描述

=====================================
split常常与strip一起使用,以去除空白符(包括换行符)
在这里插入图片描述

=====================================
利用加法,可以将这些子字符串以双冒号分隔符的形式连接起来
在这里插入图片描述

=====================================
但这种方式并不是很实用。一种更快更符合Python风格的方式是,向字符串"::"的 join方法传入一个列表或元组
在这里插入图片描述

=====================================
其它方法关注的是子串定位。检测子串的最佳方式是利用Python的in关键字,还可 以使用index和find
在这里插入图片描述

=====================================
注意find和index的区别:如果找不到字符串,index将会引发一个异常(而不是返回 -1)
在这里插入图片描述

=====================================
count可以返回指定子串的出现次数
在这里插入图片描述

=====================================
replace用于将指定模式替换为另一个模式。通过传入空字符串,它也常常用于删除模式
在这里插入图片描述

++++++++++++++++++++++++++++++++++++

下一篇:pandas入门(十四)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pandas是一种基于NumPy的数据分析工具,它可以帮助我们对数据进行清洗、编辑和分析等工作。掌握Pandas的常规用法是构建机器学习模型的第一步。首先,我们需要安装Pandas。如果已经安装了Anaconda,可以直接使用Anaconda自带的包管理工具来安装Pandas。如果没有安装Anaconda,可以使用Python自带的包管理工具pip来安装Pandas,命令为pip install pandas。安装完成后,我们可以导入Pandas库并查询相应的版本信息。通常,我们还会导入NumPy库,因为Pandas和NumPy常常结合在一起使用。导入Pandas库的命令为import pandas as pd,导入NumPy库的命令为import numpy as np。要查询Pandas的版本信息,可以使用print(pd.__version__)命令。接下来,我们可以学习Pandas的数据类型,包括Series和DataFrame。Series是一种一维的数据结构,类似于数组或列表,而DataFrame是一种二维的数据结构,类似于表格。在学习Pandas的过程中,我们可以通过导入Excel数据、输出Excel数据、数据概览、数据查看、数据清洗、数据选择、数据排序、数据分组、数据透视、数据合并和数据可视化等操作来熟悉Pandas的用法。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* [非常全面的Pandas入门教程](https://blog.csdn.net/weixin_44489066/article/details/89494395)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [pandas 快速入门教程](https://blog.csdn.net/down_12345/article/details/105345429)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值