Python爬虫实践(二)：Urllib库的简单使用

最新推荐文章于 2021-06-03 14:19:36 发布

Ian ma

最新推荐文章于 2021-06-03 14:19:36 发布

阅读量1k

点赞数

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/horseinch/article/details/51714681

版权

Python 专栏收录该内容

30 篇文章 1 订阅

订阅专栏

扒网页，其实就是根据URL来获取它的网页信息。

例子：

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
print response.read()

保存为.py之后运行，即可得到百度首页的源码
首先我们调用的是urllib2库里面的urlopen方法，urlopen一般接受三个参数，参数如下：urlopen(url, data, timeout)。

第一个参数url即为URL（必填）
第二个参数data是访问URL时要传送的数据(选填，默认为none)
第三个timeout是设置超时时间（选填，默认为socket._GLOBAL_DEFAULT_TIMEOUT）

构建Requset

import urllib2

request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

与上面例子效果完全一样，在构建请求时需要加入好多内容，通过构建一个request，服务器响应请求得到应答，这样显得逻辑上清晰明确。

POST和GET数据传送
写asp的时候遇到过。
抓取动态网页的时候，有时候需要动态地给它传递参数，得到其响应，比如账号登录，需要传递账号密码到URL。
数据传送分为POST和****GET两种方式，两者最重要的区别：

GET方式是直接以链接形式访问，链接中包含了所有的参数，当然如果包含了密码的话是一种不安全的选择，不过你可以 直观地看到自己提交了什么内容。
POST则不会在网址上显示所有的参数，不过如果想直接查看提交了什么就不太方便了

POST方式：

import urllib
import urllib2

values = {"username":"1016903103@qq.com","password":"XXXX"}
data = urllib.urlencode(values) 
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

（上述代码登陆不进去，因为还要做一些设置头部header的工作，或者还有一些参数没有设置全）

定义一个字典传入参数username和password
利用urllib的urlencode方法将字典编码
构建request时传入两个参数，url和data，运行程序，即可实现登陆，返回的是登陆后呈现的页面内容

GET方式：

import urllib
import urllib2

values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values) 
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

GET方式原理相对简单，直接把参数写到网址上面，也即直接构建一个带参数的URL出来，之后Request这个网址即可。
此时如果把geturl打印出来，就可得到：http://passport.csdn.net/account/login?username=1016903103%40qq.com&password=XXXX

Ian ma

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫实践(二)：Urllib库的简单使用

扒网页，其实就是根据URL来获取它的网页信息。例子：import urllib2response = urllib2.urlopen("http://www.baidu.com")print response.read()保存为.py之后运行，即可得到百度首页的源码首先我们调用的是urllib2库里面的urlopen方法，urlopen一般接受三个参数，参数如下：urlopen(url, da
复制链接

扫一扫

专栏目录