advanced_link_crawler_using_requests.py

本文介绍如何利用Python的requests库构建一个高级的网络爬虫,深入抓取网页链接,分析页面结构,有效处理HTTP错误和重定向。
摘要由CSDN通过智能技术生成
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Time    : 2019/9/4 17:04
# @Auther  : Frank Hu
# @Email   : 1171624400@qq.com
# @File    : advanced_link_crawler_using_requests.py
# @Software: PyCharm

from urllib import robotparser
from urllib.parse import urljoin
from urllib.parse import urlparse
import requests
import re
import time


def download(url, num_retries=2, user_agent='wswp', proxies=None):
    """ 下载给定URL并返回页面内容
        args:
            url (str): URL
        kwargs:
            user_agent (str): user agent (default: wswp)
            proxies (dict): proxy dict w/ keys 'http' and 'https', values
                            are strs (i.e. 'http(s)://IP') (default: None)
            num_retries (int): # of retries if a 5xx error is seen (default: 2)
    """
    print('Downloading:', url)
    headers = {
   'User-Agent': user_agent}
    try:
        resp = requests.get(url, headers=headers, proxies=proxies)
        html = resp.text
        if resp.status_code >= 400:
   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值