使用Python的urllib2库抓取网页

最新推荐文章于 2024-11-14 08:53:59 发布

iteye_9789

最新推荐文章于 2024-11-14 08:53:59 发布

阅读量135

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/iteye_9789/article/details/82547071

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、GET方式直接抓取，需要参数拼在参数中


import urllib2
content = urllib2.urlopen(url).read()

这里的url可以是很多中协议，具体参考官方文档

2、POST方式抓取数据，参数可以在url中，也可以封装中请求中


import urllib2, urllib
data = urllib.urlencode({'title':'this is title', 'body':'this is body'})
request = urllib2.Request(url, data, headers)
result = urllib2.urlopen(request).read()

3、登录，并缓存Cookie


    import urllib2, urllib, cookielib
    cookiejar = cookielib.LWPCookieJar()
    url_opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
    request = urllib2.Request(url)
    data = {'username' : name, 'password' : pw} 
    login_data = urllib.urlencode(data)
    response = url_opener.open(request, login_data)

此时，cookie已经被缓存到opener中了，之后有两种用法，一种是将opener设置到urllib2中作为全局的设置，这样就可以在任何地方使用urllib2获取url，另外是直接使用opener.open()来抓取数据,如下，第一种方式方便，第二种方式可以个性化的设置，比如创建多个opener或者设置代理等等


1、urllib2.install_opener(opener)
2、url_opener.open(url)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_9789

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

「Python系列」Python urllib库（操作网页URL对网页的内容进行抓取处理）

日常笔记/总结/系列知识梳理

02-28

1279

urllib支持常见的网络协议，如 HTTP、HTTPS、FTP 等，并允许你定制请求头、处理重定向、使用代理等。然而，对于更复杂的用例，如使用 OAuth 进行身份验证、发送 JSON 数据、处理 cookies 等，你可能需要查看更高级的库，如。是 Python 标准库中的一个模块，它提供了用于解析 URL 的各种功能。你可以根据异常的类型执行不同的操作，如记录错误、重试请求或向用户显示友好的错误消息。来打开或读取 URL 时，可能会遇到各种错误，例如网络问题、无效的 URL 或服务器错误。

python安装urllib2_python urllib2篇

weixin_39982269的博客

11-30

4097

一、概述urllib2是Python的一个针对URLs的库。他以urlopen函数的形式提供了一个非常简单的接口，这是具有利用不同协议获取URLs的能力，他同样提供了一个比较复杂的接口来处理一般情况，例如：基础验证，cookies,代理和其他。它们通过handlers和openers的对象提供。urllib2支持获取不同格式的URLs(在URL的":"前定义的字串,例如："ftp"是"ftp:py...

参与评论您还未登录，请先登录后发表或查看评论

urllib简单网页抓取

Travor Philip的blog

07-07

202

python网络爬虫学习 URL(父类是URI) ：统一资源定位符构成：协议、主机、地址（protocol、host、path） urlib包：抓取网页，处理URL，包含模块： request：打开读取URL error：（可以用try捕捉） parse：解析URL robotparser：可以测试一个页面是否可以被爬虫下载用urlib实现简单的网页抓取 # -*- coding: UTF-8 -*- from urllib import request import chardet if

使用Python中的urlparse、urllib抓取和解析网页（一）（转）

weixin_30840573的博客

07-24

185

　　对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python 语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先，我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块，然后，我们论述如何使用...

python3使用urllib抓取用户名密码登陆的网页

weixin_34162228的博客

12-28

2953

#python34 # -*- coding: utf-8 -*- import http.cookiejar import urllib.error import urllib.parse import urllib.request LOGIN_URL = r'http://......' get_url = 'http://.......

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

热门推荐

Jack-Cui

02-28

22万+

运行平台：Windows10 Python版本：Python3.x IDE：Sublime text3

爬虫之urllib2库的基本使用

weixin_30562507的博客

03-05

1680

urllib2库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用) urllib2 官方文档：https://docs.python.org/2/library/urllib2.html urlli...

Python中使用urllib库抓取静态网页数据

2301_79641790的博客

12-03

1489

上述代码调用的是urllib.request模块中的urlopen方法，它传入了一个百度首页的URL，使用的协议是HTTP，这是urlopen方法最简单的用法。·data -- 默认为空，该参数表示提交表单数据，同时HTTP请求方法将从默认的GET方式改为POST方式。·geturl() -- 用于获取响应内容的URL，该方法可以验证发送的HTTP请求是否被重新调配。·headers -- 默认为空，该参数是一个字典类型，包含了需要发送的HTTP报头的键值对。·url -- 表示目标资源在网站中的位置。

python urllib2 post请求_使用python urllib2发送POST请求并获取响应

weixin_27956639的博客

01-14

450

我正在尝试从发送POST请求中获取HTML页面：import httplibimport urllibimport urllib2from BeautifulSoup import BeautifulSoupheaders = {'Host': 'digitalvita.pitt.edu','Connection': 'keep-alive','Content-Length': '325','Or...

python安装urllib2_Python如何安装urllib2库

weixin_39719732的博客

11-30

3390

urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用)。urllib2库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。urllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用)urllib2 官方文档：https://docs.python.o...

Python urllib、urllib2、httplib抓取网页代码实例

09-22

以上就是Python中`urllib`, `urllib2`, 和`httplib`用于抓取网页的一些基本知识点。这些库的使用能够帮助开发者构建复杂的网络请求逻辑，进行数据抓取和交互。需要注意的是，进行网络请求时应遵守网站的robots.txt...

零基础写python爬虫之使用urllib2组件抓取网页内容

12-25

在Python中，我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。最简单的urllib2的应用代码只需要四行。 ...

「Python系列」Python urllib库（操作网页URL对网页的内容进行抓取处理）.md

06-13

`urllib` 是 Python 的一个标准库，主要用于处理 URL 操作，比如抓取网页内容、解析 URL 和处理异常情况等。对于从事 Web 开发或者需要从互联网上抓取数据的开发者来说，`urllib` 提供了一系列强大的工具和功能。 #...

ks8 本地化部署 F5-TTS

陈锐的技术笔记

11-13

951

此外，F5-TTS 还创新性地引入了推理时的 Sway Sampling 策略，这一策略可以在推理阶段优先处理早期的流步骤，从而提高生成语音与输入文本的对齐效果。在 LibriSpeech-PC 数据集上，该模型的字错误率（WER）达到了2.42，并且在推理时的实时因子(RTF)为0.15，显著优于之前的扩散模型 E2TTS，后者在处理速度和鲁棒性上存在短板。传统的 TTS 模型往往需要进行复杂的持续时间建模、音素对齐和专门的文本编码，这些都增加了合成过程的复杂性。继续TSS的启动，进入pod 输入命令。

外星人入侵

weixin_60243362的博客

11-12

2745

外星人入侵项目实践

什么是Python模块化编程

大数据实战派

11-13

480

模块化编程是一种编程方法论，它将程序的功能划分为多个独立的模块，每个模块负责程序中的一部分功能。通过这种方式，程序的代码被分割成更小、更易管理的部分，每个模块都可以独立开发、调试和测试，模块之间通过接口进行交互。模块化编程是将一个复杂的程序拆分为多个独立、功能明确的小模块的编程方法。这不仅提高了代码的复用性和可维护性，还促进了团队协作开发，增强了程序的扩展性。在实际开发中，模块化编程让代码结构更加清晰，逻辑更加简洁，为程序的长久维护和扩展打下了坚实的基础。

使用`nohup`后台运行Python服务不输出日志避坑