git 地址:https://github.com/Angel-LQ/MySampleCrawler
实现了百度百科对于 python 词条的1000 个页面抓取
程序模块:
1. url 管理器:
建立两个 set 分别存储 待抓取 url 和 已抓取 url,实现去重
2. 网页下载器
使用 urllib.request 库实现 url 的下载
3. 网页解析器
使用 bs4.beautifulsoup 库实现 html 页面的解析,提取新的 url 和结果数据
4. 数据收集器
将 3 得到的数据保存下来,并输出成 html 文件
教程地址:https://www.imooc.com/video/10689