转载-python爬虫学习（循环爬取网页链接）

最新推荐文章于 2022-11-22 15:48:12 发布

qq_34272745

最新推荐文章于 2022-11-22 15:48:12 发布

阅读量1k

点赞数

分类专栏：爬虫

原文链接：https://blog.csdn.net/One_Ok_Clock/article/details/89189151?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf

版权

爬虫专栏收录该内容

18 篇文章 0 订阅

订阅专栏

转载：以下是原文链接

本文链接： https://blog.csdn.net/One_Ok_Clock/article/details/89189151

以下是我基于参考原文基础上的修改

原文本身的代码可能因为时间久的缘故，运行原代码时会报错，无法获取到最终的url地址，加入try，except的使用后可以一定程度解决这个问题，下面是对Spider()修改后的代码：

class Spider():
    def __init__(self, url):
        self.linkQuence = linkQuence()  # 将队列引入本类
        self.linkQuence.addunvisitedurl(url)  # 传入待爬取的url,即爬虫入口

    def crawler(self,urlcount):
        # 子页面过多,为测试方便加入循环控制子页面数量
        x = 1
        while x <= urlcount:
            # 若子页面不是很多,可以直接使用队列中的未访问列表非空作为循环条件
            # while not self.linkQuence.unvisitedurlsempty():
            if x > 1:
                print("第",x-1,"个url,开始爬")
            try:
                visitedurl = self.linkQuence.unvisitedurldequence()  # 从未访问列表中pop出一个url
                if visitedurl is None or visitedurl == '':
                    continue
                initial_links = spiderpage(visitedurl)  # 爬出该url页面中所有的链接
                #right_links = url_filtrate(initial_links)  # 筛选出合格的链接
                self.linkQuence.addvisitedurl(visitedurl)  # 将该url放到访问过的url队列中
                for link in initial_links:  # 将筛选出的链接放到未访问队列中
                    # link = urllib.parse.urljoin("http:", link)
                    self.linkQuence.addunvisitedurl(link)
                x += 1
            except:
                pass
        print("终于爬完了,一共是",x-2,"个url")
        return self.linkQuence.visited

qq_34272745

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
转载-python爬虫学习（循环爬取网页链接）

https://blog.csdn.net/One_Ok_Clock/article/details/89189151?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf
复制链接

扫一扫