穿越网页表单与登录窗口进行爬取

穿越网页表单与登录窗口进行爬取

今天本文将见绍简单的网页表单与登录窗口爬取,主要说明如何进行前期的网络表单穿越与登录窗口,如有任何不足之处,望批评指正,谢谢!

一、提交一个基本表单

  1. 测试表单网址:http://pythonscraping.com/pages/files/form.html
  2. 参考代码:
 `import requests
params={'firstname':'Ryan','lastname':'Mitchell'}
r=requests.post('http://pythonscraping.com/pages/processing.php',data=params)
print(r.text)`
  1. 表单提交的要点:a.想要提交字段的名称;b.表单的action属性,就是表单提交之后网站会显示的页面。

二、单选按钮、复选框和其他输入

  1. 并非所有的表单都只是一堆文本字段和一个提交按钮,有的表单会比较复杂,如拥有单选按钮、复选框和下拉框等。但是无论表单有多么复杂,仍然只需要关注两件事:字段名称和字段值。字段名称可以通过查看源代码并寻找name属性获得。有些字段会规定字段值的格式,而有些也不会,如需要确定字段值的格式可以跟踪浏览器和网站之间来回发送的GET和POST请求。
  2. 跟踪GET请求最方便的方式就是看网站的url链接,可以看出字段值的输出格式;跟踪复杂POST表单时,检查浏览器的源代码,Network中的Form Data,可以看见服务器传递的参数。
  3. 更为详细的查看请求参数,Chrome中在菜单中通过“更多工具”——“开发者工具”(快捷键F12)打开,可以查看所有请求。

三、提交文件和图像

  1. 测试网址:http://pythonscraping.com/files/form2.html
  2. 参考代码:
import requests
files={'uploadFile':open(a)}#a为打开的文件路径
r=requests.post('http://pythonscraping.com/pages/processing2.php',files=files)
print(r.text)

四、处理登录和cookie

  1. 测试网址:http://pythonscraping.com/pages/cookies/login.html
  2. 测试代码:
import requests
params={'Username':'a','password':'password'}
r=requests.post('http://pythonscraping.com/pages/cookies/welcome.php',params)
print('Cookie is set to:')
print(r.cookies.get_dict())
r=requests.get('http://pythonscraping.com/pages/cookies/profile.php',cookies=r.cookies)
print(r.text)

ps:以上内容为本人学习python爬虫的学习笔记,不属于原创内容,如有冒犯,希望谅解,谢谢!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值