记录：fp.readlines()读取换行符引出的问题

最新推荐文章于 2024-05-16 17:32:58 发布

不离鞘

最新推荐文章于 2024-05-16 17:32:58 发布

阅读量1.6k

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/FujLiny/article/details/116874746

版权

python 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

一、前言

今天在爬取一个网站的数据，为了避免对一些数据重复爬取，我便采用 txt 文档来进行保存爬取的记录，把数据的标题作为字段保存在文档中，为了方便后续浏览日志文件，我还“细心”地在标题的后面加上'\n\n'，这样每个标题就会间隔一行，方便浏览。

二、在代码中，我是如何避免爬取重复的数据呢？

先从 txt 文件读取日志，把所有标题读取到一个列表中

with open('logData.txt','r',encoding='utf-8')as fp:
     self.LOG = fp.readlines()

判断当前爬取的标题是否在列表中

if title in self.LOG:
    print('the file is exist',title)
    continue

三、意外总是在你不知意的时候到来

就这样代码跑了几个小时，程序并没有报错，我信以为真地以为爬取的都是即崭新又漂亮的数据。

当我在检查的爬取下来的数据的时候，直接给我当头一棒，迎头痛击。
发现大量的重复数据。

在这里插入图片描述

四、问题所在

经过一番折腾，找到了问题所在。

原因是我加的'\n'导致。
加入'\n'无可厚非，但是readlines()是会把换行符也读取进去的，以至于我在判断的时候，永远缺少一个换行符而不相等。

正确的代码：

if title + '\n' in self.LOG:
    print('the file is exist',title)
    continue

五、总结

一个小小的换行符，一点粗心，就酿成了巨大的错误，虽然没有造成损失，只是辛苦这爬虫爬取了很多重复的数据。
在这里插入图片描述
但是，如果不引起注意的话，将来再这样用，可能就会造成极大的损失。尤其是这种容易忽略掉的细节。

那么，就好好梳理一下readlines()的特性吧。

readlines() 方法用于读取所有行，并返回列表，并且末尾会包含一个换行符

可以对换行符进行预处理，去掉头尾的空白：

LOG = []
with open('FuJLiny.txt','r',encoding='utf-8')as fp:
    for line in fp.readlines():
        line = line.strip()  # 去掉每行头尾空白
        LOG.append(line)

顺便说说readline()的用法

readlines() 读取所有行，返回列表
readline() 读取一行，返回字符串

readlines(10) 读取至第10个字节的那一行，包括该行，返回列表
readline(10) 读取一行的前10个字节，如果该行长度小于10个字节，返回字符串

不离鞘

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
记录：fp.readlines()读取换行符引出的问题

readlines()的特性readline()的用法readlines()是会把换行符也读取进去的
复制链接

扫一扫

专栏目录