python如何爬取网站审查元素_python使用request库登录界面爬取html内容和js内容

目录

1.使用request的post进行登录

2.审查元素查找网页的用户名和密码的键名

3.get方法获取网页静态内容

4.查找动态js对应XHR响json文件(str数据格式)的网址接口

5.使用json.loads解码str数据格式为python的数据类型

1.使用request的post进行登录

python爬虫使用request库登录网页时,使用post方法(密码存储在header中更安全),获取网页内容时,使用get方法(网址与params字符串拼接是明文)

image.png

2.审查元素查找网页的用户名和密码的键名

登录的关键点在于要知道网址账号和密码json对应的键名

比如有的网站用户名和密码的键名是passport,password;有的是username,password等等

通过网页登录的时候按F12,选择network,勾选Preserve log。在name列表中找到login文件或者其它文件,点击login文件,查看Headers中的request Header中的内容,寻找含义username和password的字眼,这个就是关键字,然后构造json数据结构,把账号密码填进去。

如果没有login文件,就查看其它文件的header,如果所有文件都没有,可以查看view source,在里面搜索看看。

查看账号和密码的键名是post登录的关键

postData = {

"username": "[[email protected]](mailto:[email protected])",

"password": "123qwe",

}#username和password需要在网页端登录后按F2查看

# 使用session直接post请求

responseRes = gerrit.post(postUrl, data = postData, headers = header)

建议采用简书作为网站测试,知乎的这个关键字通过js加密了!

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值