python中head_python3 获取header和data

一、headers的获取

就以博客园的首页为例:http://www.cnblogs.com/

打开网页,按下F12键,如下图所示:

776762-20160517105526326-255519587.png

点击下方标签中的Network,如下:

776762-20160517105700529-1888441397.png

之后再点击下图所示位置:

776762-20160517105858013-46123718.png

找到红色下划线位置所示的标签并点击,在右边的显示内容中可以查看到所需要的headers信息。

776762-20160517203648388-1786457109.png

776762-20160517110257716-2135592102.png

一般只需要添加User-Agent这一信息就足够了,headers同样也是字典类型;

user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'headers = { 'User-Agent' : user_agent }

二、data获取

以博客园登录界面为例:http://passport.cnblogs.com/user/signin?ReturnUrl=http%3A%2F%2Fwww.cnblogs.com%2F

按下F12键,如下图所示:

776762-20160517164354904-162339816.png

点击Network,然后随意输入用户名和密码,点击登录可以看到如下图所示:

776762-20160517171639888-1843315140.png

博客园登录的data信息:

data={

input1:"*******",

input2:"*******",

remember:"false"}

以电驴下载网站为例:http://secure.verycd.com/signin?error_code=emptyInput&continue=http://www.verycd.com/

776762-20160517173135591-365581554.png

data信息在From Data标签中:

copycode.gif

data={

username:"****",

password:"****",

continue:"http://www.verycd.com/"fk:" ",

save_cookie:1,

login_submit:"登录"}

copycode.gif

每一个登录网站的data信息不一定一样,都需要进入网页确定。

好啦,今天就到这了~明天介绍一个实例:如何爬取糗百的段子。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值