python爬虫入门-urllib的基本用法

最新推荐文章于 2024-08-24 11:00:49 发布

moxiaojie00

最新推荐文章于 2024-08-24 11:00:49 发布

阅读量275

点赞数

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/moxiaojie00/article/details/52318540

版权

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

urllib的基本用法以及一些参数的设置

import urllib
import urllib2

url = 'http://www.xxx.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
values = {'username': 'xxx', 'password': 'xxx'}
headers = {'User_Agent': 'user_agent'}
data = urllib.urlencode(values)
request = urllib2.Request(url, data, header)
response = urllib2.urlopen(request)
html = response.read()
print html

设置了一个headers，这样在发送请求是，headers的信息会发送到服务器，而服务器则会响应。
values是请求参数，会以post提交方式提交到服务器，而get请求参数会附在url后面提交到服务器，如：http://www.xxx.com/login?username=xxx&password=xxx，这种方式回事数据直接暴露在地址栏中，有时会有泄露信息的风险，所以涉及到比较私密的数据回忆post方式提交。
这样，我们就能获取到网页的源代码，python学习爬虫语法简结，入门简单，是一个很好的选择。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

moxiaojie00

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫入门-urllib的基本用法

urllib的基本用法以及一些参数的设置import urllibimport urllib2url = 'http://www.xxx.com/login'user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'values = {'username': 'xxx', 'password': 'xxx'}headers =
复制链接

扫一扫