学习笔记(01):Python数据清洗实战-Pandas常用数据结构series和方法

立即学习:https://edu.csdn.net/course/play/26990/361118?utm_source=blogtoedu

比列表字典元祖集合快很多的numpy是基于C语言写的,带向量,专门为数据清洗而生。所以使用python尽量避免使用for循环,而是尽量使用numpy里的函数。

pandas基于bumpy而生。

ndnarry n维数组结构 可以使用嵌套列表形式创建

还可以用dtype规定数据类型

 

np.arange可以创建左闭右开数组,最后一个数字是步长

 

np.zeros或者np.ones产生几行几列的二维数组

 

numpy是向量运算 + 会对每个数字都+ 因此尽量使用numpy清洗效率非常高

ndim判断几维 shape判断几行几列 size判断一共多少个元素 dtype判断数据类型(int32是整数形)

 

arr2【0:3】代表访问数组从第一行到第三行(左闭右开)【1,2】表示取第二行第三列的元素,作用和【1】【2】一样 【:,1:3】行数不选择,取第二列到第三列,对行数不选择时,要写成这种形式【:,列数】

 

数据排序用np.sort ()升序

如果降序sorted(变量,reverse=True)排出来是个列表

如果前面加上np.array 也就是np.array(sorted())就把列表转化为数组了

当我们对二维数组进行排序时会进行一个轴向选择,如果vp.sort(变量,axis=0)那么就会基于行沿着行的方向进行从小到大排序操作,在每列都是从小到大排序;axis=1则是沿着列的方向排序也就是说每行都是从小到大排序

 

np.argsort()返回的是数据中从大到小的索引值

 

 

对数据进行搜索和条件赋值:np.where(变量>3,1,-1)就是有一个条件是数值大于3,当条件满足时就赋值为1,条件不满足时赋值为-1,返回的是和原来数组长度一样的数组。也可以进行其他匹配,比如nu.where(变量>3,变量,-1)就是大于3的就返回数组本身,否则变成-1.

做筛选的np.extract(变量>3,变量)就是大于3的拿出来,不大于3的丢掉。第一个参数是条件,第二个参与是要返回的值

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这篇笔记主要介绍了Pandas模块的基本操作和使用方法。Pandas是Python中一个用于数据分析和处理的常用库,提供了高效的数据结构数据分析工具,是进行数据处理和数据挖掘的重要工具之一。 一、Pandas数据结构 Pandas主要有两种数据结构Series和DataFrame。 1. Series Series是一种类似于一维数组的对象,由一组数据和一组与之相关的标签(即索引)组成。Series的创建方式如下: ```python import pandas as pd # 通过列表创建Series s = pd.Series([1, 3, 5, np.nan, 6, 8]) # 通过字典创建Series s = pd.Series({'a': 1, 'b': 2, 'c': 3}) ``` 2. DataFrame DataFrame是一种二维表格数据结构,由一组数据和一组行索引和列索引组成。DataFrame的创建方式有很多种,最常用的是通过字典创建。例如: ```python import pandas as pd data = {'name': ['Tom', 'Jerry', 'Mike'], 'age': [18, 20, 22], 'gender': ['M', 'M', 'F']} df = pd.DataFrame(data) ``` 二、Pandas的基本操作 1. 数据读取 Pandas可以读取多种格式的数据文件,如CSV、Excel、SQL等。常用的读取CSV文件的方式如下: ```python import pandas as pd df = pd.read_csv('data.csv') ``` 2. 数据预处理 数据预处理是数据挖掘中非常重要的一部分,Pandas提供了很多方便的函数和方法来进行数据清洗和转换。常用数据预处理函数和方法有: - 处理缺失值 ```python # 判断是否存在缺失值 df.isnull() # 删除缺失值 df.dropna() # 填充缺失值 df.fillna(value) ``` - 处理重复值 ```python # 删除重复值 df.drop_duplicates() ``` - 数据转换 ```python # 数据类型转换 df.astype() # 数据替换 df.replace() ``` 3. 数据分析 Pandas提供了各种数据分析和处理的方法和函数,常用的包括: - 统计函数 ```python # 计算平均值 df.mean() # 计算标准差 df.std() # 计算最大值和最小值 df.max(), df.min() ``` - 排序 ```python # 按照某列排序 df.sort_values(by='column_name') ``` - 数据聚合 ```python # 对某列数据进行分组求和 df.groupby('column_name').sum() ``` 以上是Pandas模块的基础内容,还有很多高级用法和技巧需要进一步学习和掌握。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值