urllib库学习 - 用GET请求实现百度贴吧HTML页面的下载

最新推荐文章于 2021-04-22 13:25:34 发布

「已注销」

最新推荐文章于 2021-04-22 13:25:34 发布

阅读量760

点赞数

本文链接：https://blog.csdn.net/topleeyap/article/details/78835129

版权

本文介绍了如何使用Python的urllib库，通过GET请求获取百度贴吧页面的HTML内容，并将其保存到本地。主要步骤包括构造URL，发起网络请求，以及接收并保存HTML页面。

摘要由CSDN通过智能技术生成

思路

分析百度贴吧URL

发现，不同页面的URL唯一不同的是pn参数的值，每一页递增50。这样URL就搞定了。

编码思路

1. 构造URL

2. 根据URL，使用urllib.request发起网络请求，并获取HTML页面字符串

3. 将HTML页面字符串保存到本地磁盘中

源码

# !/usr/bin/env python
# -*- coding:utf-8 -*-

"""
使用urllib库下载百度贴吧页面
"""

import urllib.request
import urllib.parse
import random


def build_urls():
    """
    获取

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

使用urllib爬取网页（1百度贴吧）

missa_emperor的博客

03-16

498

import urllib.request import urllib.parse url='https://tieba.baidu.com/f?' word=input("请输入你要爬取的网页关键词：") kw={'kw':word} kw=urllib.parse.urlencode(kw) #转换成url编码 new_url=url+kw #拼接成完整的url headers={'us...

Python爬虫实战：用urllib和re爬取百度贴吧

人生苦短，还不用Python？

08-17

1336

这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧，并使用三种文件格式存储数据，下面先贴上最终的效果图 1、网页分析（1）准备工作首先我们使用 Chrome 浏览器打开 百度贴吧，在输入栏中输入关键字进行搜索，这里示例为 “计算机吧” （2）分析 URL 规律接下来我们开始分析网站的 URL 规律，以便于通过构造 URL 获取网站中所有网页的内容第一页：http:/...

参与评论您还未登录，请先登录后发表或查看评论

python 使用requests模块,爬取百度贴吧内容

小王子博客

03-12

8303

爬取百度贴吧 import requests from lxml import etree import json class TiebaSpider(object): def __init__(self,name): self.name = name self.url = 'http://tieba.baidu.com/mo/q----,sz@320_2...

python爬虫——使用requests抓取百度贴吧小说，极客学院

weixin_34356138的博客

11-29

475

1.抓取界面 def getHtml(url): #构造头部 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.3...

用requests的get方法获取百度一下的请求

m0_37925685的博客

03-02

2832

python爬虫练习之用urllib模块来爬取百度贴吧指定内容指定页面的全网页内容，（版本3）

xdc1812547560的博客

08-15

6743

文章目录可参考：分步：定义类，并初始化定义请求的方法定义存文件的方法定义主体的方法运行主函数完整代码效果可参考： https://blog.csdn.net/xdc1812547560/article/details/107989273 https://blog.csdn.net/xdc1812547560/article/details/108027258 https://blog.csdn.net/xdc1812547560/article/details/108013490 分步：导入库 impo

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

09-20

本文详细介绍了使用Python语言实现一个爬虫程序，用于爬取百度贴吧中某个帖子的所有楼层图片。为了达成这一目的，程序中使用了urllib库进行网络请求，使用了正则表达式库re来匹配和解析网页中的信息，以及利用...

python3模拟百度登录并实现百度贴吧签到示例分享(百度贴吧自动签到)

12-24

总的来说，这个示例展示了如何使用Python3的网络请求库和数据解析技术，模拟用户登录到百度并实现百度贴吧的自动签到。这涉及到网络请求的多个方面，包括HTTP协议的理解、请求头的构造、响应数据的解析以及登录状态...

爬虫网络请求模块-urllib-requests-python爬虫知识点2

weixin_43761516的博客

04-22

829

爬虫网络请求模块 urlib python内置的网络请求模块为什么要学习这个模块 1.有些比较老的爬虫项目就是这个技术 2.有的时候我们去怕一些数据需要reque+urlib模块进行配合 3.内置的发出请求获取响应解析响应 url=’’ response=requests.get(url) with open(‘photo.png’,‘rb’) as f: f.write(response.content) from urllib import requests request.urlretri

百度帖吧风格模版

10-01

高仿百度贴吧，非常好用，可设置百度贴吧都有的功能

爬取贴吧的html文件，李毅吧为例

lilinwei1234的博客

01-10

1091

# coding=utf-8 import requests class TiebaSPider: def __init__(self,tieba_name): self.tieba_name = tieba_name self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&ie=u

requests库用法

juyuyh的博客

07-17

333

requests 各种请求方式 requests.post(url) requests.put(url) requests.delete(url) requests.head(url) requests.options(url) 基本GET请求 respon...

爬取百度贴吧html网页HTML代码

Programmer_huangtao的博客

10-20

1400

from urllib.request import Request,urlopen from urllib.parse import urlencode from fake_useragent import UserAgent #导入相应的库文件 def get_html(url): headers={ 'User-Agent': UserAgent().chrome ...

Python抓取百度贴吧网页信息以及代码下载

nyyin@qq.com

11-23

2591

代码是抓取百度贴吧帖子的回复内容的。包括帖子标题、帖子回复数量，帖子页码，回复楼层、回复时间，也可以只查看楼主的回复信息。最后将获取到的帖子信息记录到记事本中。具体结果看图：上面的图片打印的是帖子的回复总数140，总共5页。这5页信息是只有楼主的回复，没有包含全部的回复。帖子标题。第一页数量30个回复，下面依次打印每一楼的回复信息，每楼层之间用*号隔开。这个记事本保存的是楼主的回复内

每天30分钟，一起来学习爬虫——day 2（urllib库——get请求 实例：百度搜索）

weixin_45691686的博客

03-17

1115

文章目录urllib 库:urllib.request 函数：urllib.parse 函数：response 方法字符串-->字节类型之间的转化GET 请求方式1.代码实现百度搜索2.反爬第一步，构建请求头部信息 urllib 库: urllib 是 python 里面提供的模拟浏览器发送请求的库 python2 : urllib urllib2 python3 : urllib.req...

Python 使用requests发送POST请求

少年乖

05-16

2023

Python 使用requests发送POST请求https://blog.csdn.net/junli_chen/article/details/53670887

Python小白爬虫(一) _使用requests模块进行Get请求网页得到页面内容（案例）