判断爬取的文件数量是否完全

最新推荐文章于 2022-09-16 09:28:54 发布

最美的情郎

最新推荐文章于 2022-09-16 09:28:54 发布

阅读量348

点赞数

分类专栏：爬虫 python 文章标签：爬虫列表两列表比较列表去重爬取完整

本文链接：https://blog.csdn.net/qq_40604853/article/details/82911872

版权

在爬取某大学论文网站的227篇文章时，实际下载到226篇。通过比较网页上的URL列表与下载后的文件列表，发现存在重复文章，导致数量不匹配。经过代码去重，问题定位为网站类别内有两篇相同论文，爬虫已正确处理避免重复下载。

摘要由CSDN通过智能技术生成

描述：最近爬取了某大学的论文网站上面的论文，但是发现网页上数量是227篇，我下载下来只有226篇，所以写了此代码想找出来少了那一篇。

过程中，我先是判断了两个列表中是否存在不同的元素并输出，但是发现是完全相同的，接着我就想可能是网页中存在重复的元素，就判断了urll列表中是否自身包含重复元素。

结果：最后发现该网站类别下有两篇相同的文章，我的爬虫代码里有判断去重，所以只下载了226篇。

代码：

from lxml import etree
import requests
import os

if __name__ == '__main__':
    url="https://arxiv.org/list/stat/pastweek?show=227"
    res = requests.get(url)
    res.encoding="utf-8"
    mytree = etree.HTML(res.content)
    ul = mytree.xpath("//*[@id='dlpage']/dl/dt/span/a[2]/@href")

    #下面这段代码是从网站爬取论文的代理名城存入urll列表
    urll = []
    for url in ul:

        filenam = str(url)
        filename = filenam[5:]

        # print("第%s篇" %(i))
        # print(filename)
        urll.append(filename)
        # if 1809.08550 in urll:

最低0.47元/天解锁文章

最美的情郎

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
判断爬取的文件数量是否完全

描述：最近爬取了某大学的论文网站上面的论文，但是发现网页上数量是227篇，我下载下来只有226篇，所以写了此代码想找出来少了那一篇。过程中，我先是判断了两个列表中是否存在不同的元素并输出，但是发现是完全相同的，接着我就想可能是网页中存在重复的元素，就判断了urll列表中是否自身包含重复元素。结果：最后发现该网站类别下有两篇相同的文章，我的爬虫代码里有判断去重，所以只下载了226篇。代码...
复制链接

扫一扫

专栏目录