urllib 爬虫

11.11.1

已于 2024-07-14 20:42:06 修改

阅读量713

点赞数 4

分类专栏： python程序设计文章标签：爬虫前端 javascript

于 2024-07-11 09:31:20 首次发布

本文链接：https://blog.csdn.net/m0_55885128/article/details/140342405

版权

python程序设计专栏收录该内容

20 篇文章 0 订阅

订阅专栏

第1关 urllib基础

import urllib.request
def request(url):
    '''
    一个参数
    :param url:请求网址
    :return:返回一个请求的字符串。编码为utf-8
    '''
    # *************** Begin *************** # 
    r=urllib.request.urlopen(url)
    r=r.read().decode('utf-8')
    return r
    # *************** End ***************** #

第2关 urllib进阶

import urllib.request
import http.cookiejar
def request(url,headers):
    '''
    两个参数
    :param url:统一资源定位符,请求网址
    :param headers:请求头
    :return:html
    '''
    
    # ***************** Begin ******************** #
    cookie = http.cookiejar.CookieJar()     
    handler = urllib.request.HTTPCookieProcessor(cookie) 
    opener = urllib.request.build_opener(handler)    
    r = opener.open(url)
    # ***************** End ******************** #
    html = r.read().decode('utf-8')
    return html

关注博主即可阅读全文