本系列课程适用人群:
- python零基础数据分析的朋友;
- 在校学生;
- 职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;
- 喜欢图表可视化的朋友;
系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!
视频地址:python中数据去重、分列、替换
本节代码:
import pandas as pd
data1 = pd.read_csv('D:/python/课件/data/dzdp_data.csv')
'''
# =============================================================================
# 数据去重
# =============================================================================
'''
# 查看帮助文档
help(data1.drop_duplicates)
# =============================================================================
# 对cus_id 进行去重
# =============================================================================
# 删除重复的数据,返回一个DataFrame
data2 = data1.drop_duplicates(subset='cus_id') # 写成['cus_id']也可以,inplace参数未设置,
#data1.drop_duplicates(subset='cus_id',inplace=True)
# 对某列差看不重复项
temp1 = data1['cus_id'].unique()
# 判断是否重复
data1['cus_id'].duplicated()
# =============================================================================
# 多个字段('kouwei','huanjing','fuwu')去重
# =============================================================================
data3 = data1.drop_duplicates(subset=['kouwei','huanjing','fuwu'])
'''
# =============================================================================
# 数据分列
# =============================================================================
'''
# =============================================================================
# 对comment_star字段按照“-”分割
# =============================================================================
data1['comment_star_re'] = data1['comment_star'].str.split('-')
# =============================================================================
# 对comment_star字段按照“-”分割,取第2个元素
# =============================================================================
data1['comment_star_re'] = data1['comment_star'].str.split('-',expand=True)[1]
'''
# =============================================================================
# 数据替换
# =============================================================================
'''
# =============================================================================
# 按单元格匹配替换
# =============================================================================
# 前后都用中括号,成对替换★★★★
data1['kouwei'].replace(['非常好', '很好', '好', '差', '一般', '无'],
[1, 2, 3, 4,5,999],
inplace=True)
# 多对一替换★★★★
data1['huanjing'].replace(['非常好', '很好', '好'],'好',inplace=True)
# 字典格式替换
data1['fuwu'].replace({'非常好':1, '很好':2,'好':'3','一般':4,'差':5,'无':999},inplace=True)
# =============================================================================
# 按单元格部分替换
# =============================================================================
data1['comment_star'] = data1['comment_star'].str.replace('sml','SML') #部分替换 ,只把sml替换成SML,没有inplace参数