数据预处理与清洗（一）入门

最新推荐文章于 2024-04-18 09:49:01 发布

海伦•

最新推荐文章于 2024-04-18 09:49:01 发布

阅读量296

点赞数

分类专栏： ==========知识图谱========== 爬虫文章标签： html

本文链接：https://blog.csdn.net/qq_42794545/article/details/120646984

版权

==========知识图谱========== 同时被 2 个专栏收录

25 篇文章 4 订阅

订阅专栏

爬虫

5 篇文章 1 订阅

订阅专栏

工具准备

参考链接：Anaconda详细安装及使用教程（带图文）_代码帮-CSDN博客

我是直接打开的jupyter lab

遇到问题

问题一：开始为了方便查看每个款式的评论我是每个手机评论分开存在csv然后手动放在一起，然后导致文件保存为GBK格式，所以jupyter无法打开

解决方法：用python将GBK文件转为utf-8文件，代码如下：

import csv

# 打开要修改格式的csv文件 data1,并读出内容到reader
with open('JDcontents_vivo.csv', 'r',encoding = 'GBK') as f:
    reader = csv.reader(f)
    for line in reader:
    # 将data1的内容以utf8格式写入新的csv文件data2
        with open('京东评论/各大品牌分开/data2.csv', 'a', encoding ='utf-8-sig', newline='') as d:
            writer = csv.writer(d)
            writer.writerow(line)

问题二，csv文件格式存储有错误，导致jupyter运行结果不太对，后期数据预处理不正常

只有评分表单

原因：读取格式不对，因为当前是没有索引的，要直接读取，而不是将评论作为索引列

参考链接：Python 用pandas读写CSV文件的index和columns细节问题_u011412768的博客-CSDN博客目录1、生成一个dataframe2、写到csv文件3、读取csv文件4、总结1、生成一个dataframe（1）自己不设置index，程序自动生成indexdata = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'], 'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3], .https://blog.csdn.net/u011412768/article/details/109522349

修改后结果为：

去除空格操作

代码：

 [x.strip() for x in col] #strp只能去除前后空格

去除空格前

去除空格后

查找并删除重复值

查找重复值

代码：

df[df.duplicated()]#找出有重复值的位置

运行结果：

删除重复值

代码：

df.drop_duplicates(inplace=True)

运行结果：

中间索引出现不连续的说明有的被删除

索引重置

代码：

df.index = range(df.shape[0])

结果：

缺失值处理

df.isnull #查看缺失值
df.notnull #查看不是缺失值的数据
df.dropna() #删除缺失值
df.fillna() #填补缺失值

查看缺失值

删除缺失值

df.dropna(inplace=True)

海伦•

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据预处理与清洗（一）入门

遇到问题开始为了方便查看每个款式的评论我是每个手机评论分开存在csv然后手动放在一起，然后导致文件保存为GBK格式，所以jupyter无法打开解决方法：用python将GBK文件转为utf-8文件，代码如下：import csv# 打开要修改格式的csv文件 data1,并读出内容到readerwith open('JDcontents_vivo.csv', 'r',encoding = 'GBK') as f: reader = csv.reader(f) for.
复制链接

扫一扫