python爬本机html文件_Python3爬虫之爬取某一路径的所有html文件

本文介绍如何使用Python爬虫从指定路径抓取所有HTML文件,并解析页面提取文章标题和URL,将内容保存为HTML文件。通过广度优先搜索策略,避免重复抓取同一链接,并使用正则表达式进行数据提取。
摘要由CSDN通过智能技术生成

要离线下载易百教程网站中的所有关于Python的教程,需要将Python教程的首页作为种子url:http://www.yiibai.com/python/,然后按照广度优先(广度优先,使用队列;深度优先,使用栈),依次爬取每一篇关于Python的文章。为了防止同一个链接重复爬取,使用集合来限制同一个链接只处理一次。

使用正则表达式提取网页源码里边的文章标题和文章url,获取到了文章的url,使用Python根据url生成html文件十分容易。

import re

import urllib.request

import urllib

from collections import deque

# 保存文件的后缀

SUFFIX='.html'

# 提取文章标题的正则表达式

REX_TITLE=r'

(.*?)'

# 提取所需链接的正则表达式

REX_URL=r'/python/(.+?).html'

# 种子url,从这个url开始爬取

BASE_URL='http://www.yiibai.com/python/'

# 将获取到的文本保存为html文件

def saveHtml(file_name,file_content):

#    注意windows文件命名的禁用符,比如 /

with open (file_name.replace('/','_')+SUFFIX,"wb") as f:

#   写文件用bytes而不是str,所以要转码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值