目录
工具准备
参考链接:Anaconda详细安装及使用教程(带图文)_代码帮-CSDN博客
我是直接打开的jupyter lab
遇到问题
问题一:开始为了方便查看每个款式的评论我是每个手机评论分开存在csv然后手动放在一起,然后导致文件保存为GBK格式,所以jupyter无法打开
解决方法:用python将GBK文件转为utf-8文件,代码如下:
import csv
# 打开要修改格式的csv文件 data1,并读出内容到reader
with open('JDcontents_vivo.csv', 'r',encoding = 'GBK') as f:
reader = csv.reader(f)
for line in reader:
# 将data1的内容以utf8格式写入新的csv文件data2
with open('京东评论/各大品牌分开/data2.csv', 'a', encoding ='utf-8-sig', newline='') as d:
writer = csv.writer(d)
writer.writerow(line)
问题二,csv文件格式存储有错误,导致jupyter运行结果不太对,后期数据预处理不正常
只有评分表单
原因:读取格式不对,因为当前是没有索引的,要直接读取,而不是将评论作为索引列
修改后结果为:
去除空格操作
代码:
[x.strip() for x in col] #strp只能去除前后空格
去除空格前
去除空格后
查找并删除重复值
查找重复值
代码:
df[df.duplicated()]#找出有重复值的位置
运行结果:
删除重复值
代码:
df.drop_duplicates(inplace=True)
运行结果:
中间索引出现不连续的说明有的被删除
索引重置
代码:
df.index = range(df.shape[0])
结果:
缺失值处理
df.isnull #查看缺失值
df.notnull #查看不是缺失值的数据
df.dropna() #删除缺失值
df.fillna() #填补缺失值
查看缺失值
删除缺失值
df.dropna(inplace=True)