一、python3里的 urllib2 已经没有了,改为了 urllbi.request,因此,直接导入 import urllib.request 即可。
二、必须对正则表达式里的引用变量进行格式变换 .decode('utf-8'),否则会报错说 不能在一个字节类的对象上使用字符串格式。
如下代码所示。
### 一、 网站地图爬虫,控制用户代理的设定,可捕获异常、重试下载并设置用户代理。wswp: web scraping with python
import urllib.request ## -- written by LiSongbo
def Rocky_dnload(url,user_agent='wswp',num_retries = 2):
print('Downloading:',url)
LiSongbo_he={
'User-agent'

本文介绍了在Python3中进行网站地图爬虫时遇到的'cannot use a string pattern on a bytes-like object'错误的解决方法。关键在于将正则表达式中的字符串进行.decode('utf-8')转换,以适应字节类型的对象。通过修改代码,成功从sitemap.xml中提取链接并下载相应页面。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



