dataframe 根据条件查找_python处理DataFrame数据的一些常用操作

fb5af98a7e6bb236b5bb5ccd848691fa.png

前言

在算法开发的工作中,很大一部分工作是进行数据分析。我们需要分析原始数据分布、算法效果回收等。这样的数据大部分都是结构化的数据,在Python中常用的处理结构化数据的工具包为Pandas、Numpy。本文将汇总的Python中处理DataFrame数据的一些常用操作进行介绍。

数据

为了方便大家,这里将脱敏后的数据提供出来:

链接:https://pan.baidu.com/s/1-uUOZfVHohfJU9JNRO2opA

提取码: gckq

一段注释比代码多的代码

这里将处理DataFrame数据时一些常用的操作以代码的形式进行演示,包含了一些函数的基本用法。

import pandas as pd
import numpy as np
df = pd.read_csv('gzh.csv',encoding='utf8',sep='\t',usecols=['team_name','phone','num','rate1','rate2']) #默认第一行是表头

#查看df的维度
print(df.shape)
#查看表数据的基础信息
print(df.info())
#查看每一列数据的格式
print(df.dtypes)
#验证空值
print(df.isnull())
#验证nan值
print(df.isna())
#注意:上述结果看来isnnull()和isnan()的结果是一样的,后面会讲两者的不同
#查看数据表的值
print(df.values)
print(type(df.values))#数据类型为:numpy.ndarray
#查看列名称
print(df.columns)
#查看前、后n行数据
print(df.head(6))
print(df.tail(6)) #默认前、后10行
#空值填充
print('111111')
print(df.fillna(value=0))
#使用rate2的均值对rate2的NaN进行填充
print(df['rate2'].fillna(df['rate2'].mean()))
#对不同的列的NaN分别进行填充

#遍历DataFrame的每一行
#方法1:
for index, row in df.iterrows():
print('index:',index) # 输出每行的索引值
print('row2:',row['team_name'])
break
#df.iterrows()返回的是一个元组:(index,data)

#方法2:
for row in df.itertuples():
print('方法2:')
print(getattr(row, 'team_
  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值