数据预处理与清洗(一)入门

目录

 工具准备

遇到问题 

去除空格操作

查找并删除重复值 

 缺失值处理 

 

 工具准备

参考链接:Anaconda详细安装及使用教程(带图文)_代码帮-CSDN博客 

 我是直接打开的jupyter lab

 

遇到问题 

问题一:开始为了方便查看每个款式的评论我是每个手机评论分开存在csv然后手动放在一起,然后导致文件保存为GBK格式,所以jupyter无法打开

 

解决方法:用python将GBK文件转为utf-8文件,代码如下:

import csv

# 打开要修改格式的csv文件 data1,并读出内容到reader
with open('JDcontents_vivo.csv', 'r',encoding = 'GBK') as f:
    reader = csv.reader(f)
    for line in reader:
    # 将data1的内容以utf8格式写入新的csv文件data2
        with open('京东评论/各大品牌分开/data2.csv', 'a', encoding ='utf-8-sig', newline='') as d:
            writer = csv.writer(d)
            writer.writerow(line)

问题二,csv文件格式存储有错误,导致jupyter运行结果不太对,后期数据预处理不正常 

只有评分表单

 

原因:读取格式不对,因为当前是没有索引的,要直接读取,而不是将评论作为索引列

 

参考链接:Python 用pandas读写CSV文件的index和columns细节问题_u011412768的博客-CSDN博客目录1、生成一个dataframe2、写到csv文件3、读取csv文件4、总结1、生成一个dataframe(1)自己不设置index,程序自动生成indexdata = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'], 'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3], .https://blog.csdn.net/u011412768/article/details/109522349

修改后结果为:

去除空格操作

代码:

 [x.strip() for x in col] #strp只能去除前后空格

去除空格前

 

去除空格后

查找并删除重复值 

查找重复值

代码:

df[df.duplicated()]#找出有重复值的位置

运行结果:

 删除重复值

代码:

df.drop_duplicates(inplace=True)

 运行结果:

 中间索引出现不连续的说明有的被删除

索引重置

代码:

df.index = range(df.shape[0])

结果:

 

 缺失值处理 

df.isnull #查看缺失值
df.notnull #查看不是缺失值的数据
df.dropna() #删除缺失值
df.fillna() #填补缺失值 

查看缺失值

 删除缺失值

df.dropna(inplace=True)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值