python 实现简单的爬虫

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_40017590/article/details/79953768

    git 地址:https://github.com/Angel-LQ/MySampleCrawler

    实现了百度百科对于 python 词条的1000 个页面抓取

程序模块:

    1. url 管理器:

        建立两个 set 分别存储 待抓取 url 和 已抓取 url,实现去重

    2. 网页下载器

        使用 urllib.request 库实现 url 的下载

    3. 网页解析器 

        使用 bs4.beautifulsoup 库实现 html 页面的解析,提取新的 url 和结果数据

    4. 数据收集器

        将 3 得到的数据保存下来,并输出成 html 文件

教程地址:https://www.imooc.com/video/10689

阅读更多 登录后自动展开
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页