pandas数据读取与清洗视频10-python中数据去重、分列、替换

本系列课程适用人群:

  1. python零基础数据分析的朋友;
  2. 在校学生;
  3. 职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;
  4. 喜欢图表可视化的朋友;

系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!

视频地址:python中数据去重、分列、替换

本节代码:

import pandas as pd
data1 = pd.read_csv('D:/python/课件/data/dzdp_data.csv')

'''
# =============================================================================
#  数据去重
# =============================================================================
'''
# 查看帮助文档
help(data1.drop_duplicates)

# =============================================================================
#  对cus_id 进行去重
# =============================================================================

# 删除重复的数据,返回一个DataFrame
data2 = data1.drop_duplicates(subset='cus_id')  # 写成['cus_id']也可以,inplace参数未设置,
#data1.drop_duplicates(subset='cus_id',inplace=True) 
# 对某列差看不重复项
temp1 = data1['cus_id'].unique()

# 判断是否重复
data1['cus_id'].duplicated()

# =============================================================================
# 多个字段('kouwei','huanjing','fuwu')去重
# =============================================================================

data3 = data1.drop_duplicates(subset=['kouwei','huanjing','fuwu'])



'''
# =============================================================================
# 数据分列
# =============================================================================
'''
# =============================================================================
# 对comment_star字段按照“-”分割
# =============================================================================

data1['comment_star_re'] = data1['comment_star'].str.split('-')


# =============================================================================
# 对comment_star字段按照“-”分割,取第2个元素
# =============================================================================

data1['comment_star_re'] = data1['comment_star'].str.split('-',expand=True)[1]


'''
# =============================================================================
# 数据替换
# =============================================================================
'''
# =============================================================================
# 按单元格匹配替换
# =============================================================================
# 前后都用中括号,成对替换★★★★
data1['kouwei'].replace(['非常好', '很好', '好', '差', '一般', '无'],
                        [1, 2, 3, 4,5,999],
                        inplace=True)

# 多对一替换★★★★
data1['huanjing'].replace(['非常好', '很好', '好'],'好',inplace=True)

# 字典格式替换
data1['fuwu'].replace({'非常好':1, '很好':2,'好':'3','一般':4,'差':5,'无':999},inplace=True)


# =============================================================================
# 按单元格部分替换
# =============================================================================
data1['comment_star'] = data1['comment_star'].str.replace('sml','SML')   #部分替换 ,只把sml替换成SML,没有inplace参数
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

python技巧(数据分析及可视化)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值