记录:fp.readlines()读取换行符引出的问题

一、前言

今天在爬取一个网站的数据,为了避免对一些数据重复爬取,我便采用 txt 文档来进行保存爬取的记录,把数据的标题作为字段保存在文档中,为了方便后续浏览日志文件,我还“细心”地在标题的后面加上'\n\n',这样每个标题就会间隔一行,方便浏览。

二、在代码中,我是如何避免爬取重复的数据呢?

  • 先从 txt 文件读取日志,把所有标题读取到一个列表中
with open('logData.txt','r',encoding='utf-8')as fp:
     self.LOG = fp.readlines()
  • 判断当前爬取的标题是否在列表中
if title in self.LOG:
    print('the file is exist',title)
    continue

三、意外总是在你不知意的时候到来

就这样代码跑了几个小时,程序并没有报错,我信以为真地以为爬取的都是即崭新又漂亮的数据。

当我在检查的爬取下来的数据的时候,直接给我当头一棒,迎头痛击。
发现大量的重复数据。

在这里插入图片描述

四、问题所在

经过一番折腾,找到了问题所在。

原因是我加的'\n'导致。
加入'\n'无可厚非,但是readlines()是会把换行符也读取进去的,以至于我在判断的时候,永远缺少一个换行符而不相等。

正确的代码:

if title + '\n' in self.LOG:
    print('the file is exist',title)
    continue

五、总结

一个小小的换行符,一点粗心,就酿成了巨大的错误,虽然没有造成损失,只是辛苦这爬虫爬取了很多重复的数据。
在这里插入图片描述
但是,如果不引起注意的话,将来再这样用,可能就会造成极大的损失。尤其是这种容易忽略掉的细节。

那么,就好好梳理一下readlines()的特性吧。

readlines() 方法用于读取所有行,并返回列表,并且末尾会包含一个换行符

可以对换行符进行预处理,去掉头尾的空白:

LOG = []
with open('FuJLiny.txt','r',encoding='utf-8')as fp:
    for line in fp.readlines():
        line = line.strip()  # 去掉每行头尾空白
        LOG.append(line)

顺便说说readline()的用法

readlines() 读取所有行,返回列表
readline() 读取一行,返回字符串

readlines(10) 读取至第10个字节的那一行,包括该行,返回列表
readline(10) 读取一行的前10个字节,如果该行长度小于10个字节,返回字符串

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值