urllib2抓取网页内容

最新推荐文章于 2021-11-27 15:36:56 发布

可爬

最新推荐文章于 2021-11-27 15:36:56 发布

阅读量129

点赞数

分类专栏： python爬虫入门

本文链接：https://blog.csdn.net/qq_40879289/article/details/82699871

版权

python爬虫入门专栏收录该内容

5 篇文章 0 订阅

订阅专栏

urllib 和 urllib2 都是接受 URL 请求的相关模块，但是提供了不同的功能。两个最显著的不同如下：
1、urllib 仅可以接受 URL，⽽ urllib2 可以接受⼀个设置了 headers 的 Request 类实例。这表示我们可以伪装⾃⼰的 User Agent 字符串等。
2、urllib 提供 urlencode ⽅法⽤来 GET 查询字符串的产⽣，⽽ urllib2 没有。这是为何 urllib 常和 urllib2 ⼀起使⽤的原因。编码⼯作使⽤urllib 的urlencode()函数，帮我们将 key:value 这样的键值对转换成 "key=value" 这样的字符串，解码⼯作可以使⽤ urllib 的 unquote() 函数。

`注：urlopen只能处理http，不可以处理https`

#encoding:utf-8
import  urllib2

Website=urllib2.Request("http://www.baidu.com")   # 发送请求
pa=urllib2.urlopen(Website).read()# 读取网页
print pa                          # 打印

# encoding:UTF-8
import urllib2

response=urllib2.urlopen("http://www.baidu.com")#网页抽象为文件
while True:
        line=response.readline()#读取一行
        if not line:
            break
        print line

可爬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
urllib2抓取网页内容

urllib 和 urllib2 都是接受 URL 请求的相关模块，但是提供了不同的功能。两个最显著的不同如下：1、urllib 仅可以接受 URL，⽽ urllib2 可以接受⼀个设置了 headers 的Request 类实例。这表示我们可以伪装⾃⼰的 User Agent 字符串等。2、urllib 提供 urlencode ⽅法⽤来 GET 查询字符串的产⽣，⽽ urllib2没有。...
复制链接

扫一扫