爬虫系列（二）

最新推荐文章于 2023-10-15 23:10:21 发布

林弋sir

最新推荐文章于 2023-10-15 23:10:21 发布

阅读量102

点赞数

本文链接：https://blog.csdn.net/weixin_38450880/article/details/82730820

版权

一、简单的爬虫程序
import urllib.request
from urllib.error import URLError,HTTPError,ContentTooShortError

def download(url,num = 2,user_agnet =’wswp’):
print(‘donwloadiing’,url)
#设置用户代理
··request = urllib.request.Request(url)
·· request.add_header(‘User-agent’,user_agnet)
try:

       html = urllib.request.urlopen(url).read()
   except (URLError,HTTPError,ContentTooShortError) as e:
       print('downloading',e.reason)
       html = None
    #当错误发生在5xx的 时候，进行重新下载
       if num >0:
           if hasattr(e,'code') and 500 <= e.code < 600:
               return download(url,num - 1)
   return html

A = ‘https://www.douban.com/’
print(download(A))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

林弋sir

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫系列（二）

一、简单的爬虫程序 import urllib.request from urllib.error import URLError,HTTPError,ContentTooShortErrordef download(url,num = 2,user_agnet =’wswp’): print(‘donwloadiing’,url) #设置用户代理 ...
复制链接

扫一扫