简单百科爬虫 python

最新推荐文章于 2023-05-22 17:12:06 发布

VIP文章 Kuro同学

最新推荐文章于 2023-05-22 17:12:06 发布

阅读量3.1k

点赞数 3

分类专栏： python 文章标签：爬虫

本文链接：https://blog.csdn.net/axuan_k/article/details/51447111

版权

本爬虫的目的是截取某百科下的所有相关链接的标题和简介,最终以html表格的形式呈现

爬虫整体架构

爬虫整体流程

结果展示:

代码部分

调度端- baike_spider：

# coding:utf-8
from baike_spider import url_manager, html_downloader, html_parser, html_outputer

class SpiderMain(object):
    def __init__(self) :              
        self.urls = url_manager.UrlManager()
        self.downloader = html_downloader.HtmlDownloader()
        self.parser = html_parser.HtmlParser()
        self.outputer = html_outputer.HtmlOutputer()
    
    def craw(self,root_url,num):                  
        count = 1
        self.urls.add_new_url(root_url)        # url管理器加入根链接
        while(self.urls.has_new_url()):        # 当管理器中存在链

最低0.47元/天解锁文章

优惠劵

Kuro同学

关注关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
简单百科爬虫 python

本爬虫的目的是截取某百科下的所有相关链接的标题和简介,最终以html表格的形式呈现爬虫整体架构爬虫整体流程代码部分调度端- baike_spider：# coding:utf-8from baike_spider import url_manager, html_downloader,
复制链接

扫一扫