Python3爬虫之爬取某一路径的所有html文件

最新推荐文章于 2024-08-14 11:00:39 发布

王世晖

最新推荐文章于 2024-08-14 11:00:39 发布

阅读量1w

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/wangshihui512/article/details/51100605

版权

本文介绍如何使用Python3编写爬虫程序，针对特定URL路径下，递归抓取所有HTML文件。通过HTTP请求获取网页，解析HTML结构，识别并下载相关文件，实现批量处理和数据存储。

摘要由CSDN通过智能技术生成

要离线下载易百教程网站中的所有关于Python的教程，需要将Python教程的首页作为种子url：http://www.yiibai.com/python/，然后按照广度优先（广度优先，使用队列；深度优先，使用栈），依次爬取每一篇关于Python的文章。为了防止同一个链接重复爬取，使用集合来限制同一个链接只处理一次。
使用正则表达式提取网页源码里边的文章标题和文章url，获取到了文章的url，使用Python根据url生成html文件十分容易。

import re
import urllib.request
import urllib
from collections import deque
# 保存文件的后缀
SUFFIX='.html'
# 提取文章标题的正则表达式
REX_TITLE=r'<title>(.*?)</title>'
# 提取所需链接的正则表达式
REX_URL=r'/python/(.+?).html'
# 种子url，从这个url开始爬取
BASE_URL='http://www.yiibai.com/python/'


# 将获取到的文本保存为html文件
def saveHtml(file_name,file_content):
#    注意windows文件命名的禁用符，比如 /
    with open (file_name.replace('/','_')+SUFFIX,"wb") as