数据预处理

该文介绍了如何使用Python的pandas库对数据进行去重操作,包括两种方法:一是通过循环判断并存入列表,二是利用set函数,以及使用内置的drop_duplicates方法。示例中展示了对品牌名称列进行去重,并讨论了inplace参数的影响。
摘要由CSDN通过智能技术生成

import pandas as pd

data1 = pd.read_excel(根据具体情况定)(r'文件路径')#获取数据

data1.head()#查看前五行数据

data1['品牌名称']

len(data1['品牌名称'])#求个数

【去重:方法一】

my_pro=[]#存储去重后的品牌名称

for i in data1['品牌名称']:

# print(i)

if i not in my_pro:

my_pro.append(i)

print(my_pro)#打印出去重后的品牌名称

print(len(my_pro))#打印出去重后的品牌数量

【去重:方法二(利用set函数)】

print(set(data1['品牌名称']))

#使用drop_duplicates去重

data2 = data1.copy()#复制一份,以免影响原有数据

data2['品牌名称'].drop_duplicates()

#默认inplace为Flase,此时data2被改变,若令inplace为True即

data2.drop_duplicates(subset='品牌名称',inplace=True)

则data2改变

data1_drop=data1.drop_duplicates(subset=['母婴用品名称','品牌名称'])#去重两列相同的数据

print(data1_drop)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值