python如何爬取网站审查元素_python使用request库登录界面爬取html内容和js内容

最新推荐文章于 2024-03-20 06:06:00 发布

weixin_39939276

最新推荐文章于 2024-03-20 06:06:00 发布

阅读量1.9k

点赞数 2

文章标签： python如何爬取网站审查元素

本文介绍了Python使用requests库进行网站登录和爬取动态内容的方法。包括：1)使用requests的POST进行登录，寻找用户名和密码的键名；2)GET方法获取静态内容；3)查找动态JS内容的接口并使用json.loads解析数据。

摘要由CSDN通过智能技术生成

目录

1.使用request的post进行登录

2.审查元素查找网页的用户名和密码的键名

3.get方法获取网页静态内容

4.查找动态js对应XHR响json文件(str数据格式)的网址接口

5.使用json.loads解码str数据格式为python的数据类型

1.使用request的post进行登录

python爬虫使用request库登录网页时，使用post方法(密码存储在header中更安全)，获取网页内容时，使用get方法(网址与params字符串拼接是明文)

image.png

2.审查元素查找网页的用户名和密码的键名

登录的关键点在于要知道网址账号和密码json对应的键名

比如有的网站用户名和密码的键名是passport，password；有的是username，password等等

通过网页登录的时候按F12，选择network，勾选Preserve log。在name列表中找到login文件或者其它文件，点击login文件，查看Headers中的request Header中的内容，寻找含义username和password的字眼，这个就是关键字，然后构造json数据结构，把账号密码填进去。

如果没有login文件，就查看其它文件的header，如果所有文件都没有，可以查看view source，在里面搜索看看。

查看账号和密码的键名是post登录的关键

postData = {

"username": "[2122@qq.com](mailto:2122@qq.com)",

"password": "123qwe",

}#username和password需要在网页端登录后按F2查看

# 使用session直接post请求

responseRes = gerrit.post(postUrl, data = postData, headers = header)

建议采用简书作为网站测试，知乎的这个关键字通过js加密了！

最低0.47元/天解锁文章

weixin_39939276

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。