python数据分析常见命令

前言

近些天我会整理一些我平时清理csv,excel数据经常用的常见命令来分享给大家学习,大家一起加油!

第一个命令:引入pandas库

pandas库是一个开源的数据分析工具,主要用于数据处理和数据分析。

import pandas as pd

第二个命令:读取数据表(.csv,.excel)

#读取csv格式的数据表
data = pd.read_csv("文件路径.csv")   
#记住文件路径的反斜杠是/,如果使用错误会报错

第三个命令:保存处理后的数据到Excel文件

#data是处理好的数据

data.to_excel("result1_1.xlsx", index=False)

第四个命令:缺少值的处理

在数据表中,我们面临着上万条数据,不能一条条查找缺少的数据,所有我们的办法就是,把有缺失的数据的行进行删除

1.查找缺失值

missing_values = data.isnull().sum()

 2.删除缺少值

data=data.dropna()

注意:如果想看到效果,需要保存处理后的数据到Excel文件

 第五个命令:重复值的处理

1.查找重复数据:

示例:查找数据中user_id字段有重复的行

duplicate_values = data.duplicated('user_id')

 2.删除重复数据

示例:删除数据中user_id字段有重复的行

data = data.drop_duplicates('user_id')

 第六个命令:删除有异常值得行

示例:删除数据中Age字段里面有-1,0,“-”值的行

data = data[~data['Age'].isin([-1, 0, "-"])]

解释:isin()函数来判断数据中的年龄是否包含在指定的列表[-1, 0, "-"]中 ,然后使用~操作符来取反,表示保留不包含在这个列表中的行,最终得到过滤后的数据。

本篇文章分享就到这里了,后续会继续更新~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值