过程(’#‘ 后表示代码中的操作)
f12 -> network -> ctrl+R
登录 -> 输入账号、密码 -> 确定
在network中找到login ( 需要它的 请求标头 和 url)
# 准备 session 和 data
session = requests.session()
data = {
# 把请求标头里的所有内容复制下来改成字典形式,作为session的data参数
}
# 登录
url = ‘....’
resp = session.post(url, data = data)
# 检查
print(resp.text)
print(resp.cookies)
# 拿数据
resp = session.(get 或者 post)(要爬取的数据所在的url请求)
注意此处依然是session而不是requests,后续按照需要处理数据
踩过的坑及其解决方法
1.找不到login
勾选保留日志
2.请求失败
没有把请求标头里的所有内容都写入data参数(我第一次只写入了账号、密码)
3.xpath解析的时候错误(后续处理我用了xpath解析,因为给的不是直接json形式)
复制xpath之后直接放到""中,实际上里面本身复制进来的就有""
还有一个没踩的,删除tobody
初学者,第一次写一个比较完整的笔记,只是作为练习的记录,当然不同情况下可能有其他的问题,比如验证码之类的,我还没有深入了解,如果有好的关于其他问题的文章希望可以分享给我哈(激励多学一点(^_^))。