urllib库学习 - 用GET请求实现百度贴吧HTML页面的下载

「已注销」

于 2017-12-18 17:29:20 发布

阅读量754

点赞数

本文链接：https://blog.csdn.net/topleeyap/article/details/78835129

版权

思路

分析百度贴吧URL

发现，不同页面的URL唯一不同的是pn参数的值，每一页递增50。这样URL就搞定了。

编码思路

1. 构造URL

2. 根据URL，使用urllib.request发起网络请求，并获取HTML页面字符串

3. 将HTML页面字符串保存到本地磁盘中

源码

# !/usr/bin/env python
# -*- coding:utf-8 -*-

"""
使用urllib库下载百度贴吧页面
"""

import urllib.request
import urllib.parse
import random


def build_urls():
    """
    获取

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
urllib库学习 - 用GET请求实现百度贴吧HTML页面的下载

思路分析百度贴吧URL 发现，不同页面的URL唯一不同的是pn参数的值，每一页递增50。这样URL就搞定了。开始代码编写1. 构造URL2. 根据URL，使用urllib.request发起网络请求，并获取HTML页面字符串3. 将HTML页面字符串保存到本地磁盘中源码# !/usr/bin/env python# -*- coding:ut
复制链接

扫一扫

专栏目录