爬虫基础之urllib.request

最新推荐文章于 2022-05-26 14:01:58 发布

ShiLihepan

最新推荐文章于 2022-05-26 14:01:58 发布

阅读量430

点赞数

分类专栏：爬虫文章标签： python 爬虫 request urllib

本文链接：https://blog.csdn.net/ShiLihepan/article/details/80418080

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1、导入request

from urllib import request

2、使用urlopen请求网页

url = "http://www.baidu.com"
rsp = urllib.request.urlopen(url)

看到上面一行代码，有没有觉得很长，想有一个单词来代替三个单词

使用read读取网页内容，得到数据为bytes格式

html = rsp.read()

3、使用decode解码

html = html.decode()

decode()默认的解码格式是UTF-8，好在大多数网页是UTF-8格式编码，不过有的网页是gb2312或者其他，此时需要检测网页的编码格式

4、导入chardet

import chardet

检测编码并读取内容

cs = chardet.detect(html)
html = html.decode(cs.get("encoding"))

5、使用parse把字典转换为url编码

当你需要在一个网页中进行关键字搜索时，要访问的url就会变为该网页的url+关键字，但是urlopen不能识别输入的关键字，此时需要对关键字进行编码，然后合并为一个新的url。以百度为例

url = "http://www.baidu.com/s?"
kw = input("请输入关键字")
suffix = {"kw":kw}

// parse使用之前需要导入
from urllib import parse
suffix = parse.urlencode(suffix)
fullurl = url + suffix

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ShiLihepan

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爬虫库Urllib（urllib.request.Request与urllib.request.urlopen）

qq_35194427的博客

07-27

2502

Python3中-爬虫库Urllib概述urllib.request1. urllib.request.Request2. urllib.request.urlopen3. urllib.request.urlopen和urllib.request.Request实例演示概述问：Urllib能做什么？答：常用在爬虫开发、API(应用程序编程接口)数据获取、测试；问：Urllib需要安装吗？答：Python自带的标准库，直接引用（import）即可；问： Urllib、Urllib2和Urlli

python爬虫|urllib.request模块和urllib.parse模块使用

m0_60701922的博客

08-05

620

1 urllib.requst使用 1.1 基本介绍 1.2 urllib.request.urlopen 1.3 urllib.request.Request 2 urllib.parse 模块使用 2.1 urllib.parse.encode() 2.2 urllib.parse.quote()的使用 2.3 综合练习 3 爬虫百度贴吧练习 1. urllib requst使用 1.1 基本介绍（1）介绍： urllib 的 request 模块可以发送请求，返回 response。（2）用法：u

参与评论您还未登录，请先登录后发表或查看评论

Python中的urllib.request模块

学愈进而愈惘

08-25

7万+

因为在玩Python challenge的时候，有用过这个模块，而且学习这个模块之后也对系统学习网络爬虫有用。当时查了各种资料学习，没有碰官网文档（因为还是对英语有抗拒性），但是还是官方的文档最具权威和学习价值，因此想要此次翻译官方文档的同时，锻炼自己的英语能力，也对urllib模块加深理解。因为是为了自己复习起来方便~所以就不一句英语一句中文的对照着翻了，有兴趣看原版的，自己点官方文档吧~翻译不足

python3网络爬虫一《使用urllib.request发送请求》

热门推荐

软件测试技术的博客

10-23

7万+

python 爱好者交流群：810306356 这里有很多像你一样的伙伴，共同分享学习python的经验！使用urllib 在Python2版本中，有urllib和urlib2两个库可以用来实现request的发送。而在Python3中，已经不存在urllib2这个库了，统一为urllib。Python3 urllib库官方链接 https://docs.pytho...

Python爬虫核心知识-第二章：2.1 爬虫urllib.request请求模块

全村最好捉的羊

04-24

2294

Python爬虫核心知识-第二章：2.1 爬虫urllib.request请求模块

python 爬虫之 urllib库

看那白熊

03-02

591

用实例代码一步步演示 urllib 库如何使用。

python爬虫 urllib.request

qq_43132454的博客

05-26

1010

用来模拟浏览器请求网页服务器 urllib.request.urlopen(headers)用来获取网页返回值 import urllib.request #获取一个get请求 response = urllib.request.urlopen("http://www.baidu.com") print(response.read().decode('utf-8')) #对获取到的网页源码进行utf-8解码 #获取一个post请求 import urllib.parse data = by

python爬虫实例——基于BeautifulSoup与urllib.request

08-12

3. 发起请求：使用`urllib.request.urlopen()`获取网页内容，内容以字节形式返回，通常需要解码为字符串。 4. 解析HTML：将获取的HTML内容传给`BeautifulSoup`，并指定解析器（如`html.parser`）。然后，可以使用...

Python urllib.request对象案例解析

12-17

Python的`urllib`库是进行网络数据请求和处理的基础工具，特别在Web爬虫领域中扮演着重要的角色。这个库包含多个子模块，每个子模块都有特定的功能，旨在简化HTTP和其他协议的数据获取。 1. **urllib.request**模块...

一木.溪桥学爬虫-03：请求模块urllib、 urllib.request、urllib.parse.urlencode、urllib.parse.quote(str)、.unquote()

FaFrFu的博客

02-04

463

一木.溪桥在Logic Education跟Jerry学爬虫 07期：Python 爬虫一木.溪桥学爬虫-03：请求模块urllib、 urllib.request、urllib.parse.urlencode、urllib.parse.quote(str)、parse.unquote() 日期：2021年1月26日学习目标：请求模块urllib urllib.request urllib.parse.urlencode urllib.pa..

爬虫urllib.request

好好学习+ 天天向上

04-15

225

https://www.cnblogs.com/xingzhui/p/7845675.html urlopen方法打开指定的URL urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) url参数，可以是一个string，或者一个R...

Python爬虫入门：urllib.request.Request详解

菜鸟也要高飞

07-21

4万+

Python爬虫入门：urllib.request.Request详解Request简介基本用法参数解析用法 Request简介 urlopen()方法可以实现最基本的请求的发起，但如果要加入Headers等信息，就可以利用Request类来构造请求。使用方法为：urllib.request.Request(url, data=None, headers={}, origin_req_host=...

python爬虫内置库之urllib.request

生命在于休息的博客

05-18

1212

urllib.request模块定义了适用于在各种复杂情况下打开 URL (主要为 HTTP) 的函数和类 --- 例如基本和精简验证，重定向、cookies 及其它。 urllib.request.urlopen（url，data = None，[timeout，]*，cafile = None，capath = None，cadefault = False，context = N...

python 爬虫urllib.request

岳飞的博客

03-16

214

urllib.request.urlopen() urllib.request是一个提供了最基本的构造HTTP请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时还可以处理授权验证、重定向、浏览器Cookies以及其他内容 urllib.request的类型为HTTPResponse,它主要包含额read()、readinfo()、getheader(name)、getheaders(),...

python3爬虫初探（一）之urllib.request

春华秋实

10-09

761

#----第一把武器-----urllib.request--------- 　　urllib.request是python3自带的库（python3.x版本特有），我们用它来请求网页，并获取网页源码。话不多说，上代码。 import urllib.request #调入要使用的库 url = 'http://www.baidu.com' data = urllib.request

爬虫网络请求urllib和request库的使用

qq_45126531的博客

01-29

2320

1、urllib库（python内置库） urlopen函数创建一个表示远程的url的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据 url: 请求url(网址) data:请求的data,如果设置了这个值。那么将变成post请求返回值：返回值是一个对象 from urllib import request resp = request.urlopen('https://www.sogou.com/') # print(resp.read())#读取数据 # print(resp.re

urllib的Request详解

实践求真知

01-06

3325

一点睛 urlopen()方法可以实现最基本请求的发起，但这几个简单的参数并不足以构建一个完整的请求。如果请求中需要加入Headers等信息，就可以利用更强大的Request类来构建。二实战 1 代码 import urllib.request request = urllib.request.Request('https://python.org') response = ur...

urllib.request的整理

Super__koo的博客

09-09

312

urllib.request(提供的类)： Request(url,data = None,headers = {}) OpenerDirector BaseHandler（所有Handler处理器的父类） #（使用Handler处理器可以完成一些高级操作，例如：Cookie处理，代理...

python3的urllib的request模块

山谷里的小水泡

04-15

1723

urlopen 定义： urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None) 功能：像读文件一样读网页 #!/usr/bin/env python3 # -*- coding:utf-