爬虫笔记1 request基础

最新推荐文章于 2024-08-23 16:53:34 发布

mahuatengmmp

最新推荐文章于 2024-08-23 16:53:34 发布

阅读量129

点赞数

分类专栏：爬虫文章标签： python cookie

本文链接：https://blog.csdn.net/mahuatengmmp/article/details/105796551

版权

爬虫专栏收录该内容

7 篇文章 1 订阅

订阅专栏

requests

import requests
#地址，参数，头
response = requests.get(url=,params=,headers=,data=)
#获取网页
response.content.decode()

requests代理

proxies = {'http':'http://','https':'https://'}
requests.get(url,proxies)

保持服务器会话

session = requests.session()
r1 = session.post(url)
r2 = session.get(url)

先实例化一个session
使用session访问网站，cookie会存储在session中
存储了cookie的session可以继续用这个cookie访问网站

寻找登陆的POST地址

在form表单中寻找action对应url地址
- 是post的数据是input标签中name的值作为键(data字典里的键)，真正的用户名和密码作为值的字典，post的url地址就是action对应的url地址
抓包,寻找登录的url地址
- 勾选perserve log按钮，防止页面跳转找不到url
- 寻找post数据，确定参数
  - 参数不变
    - 参数在当前的响应中
    - 通过js生成

定位想要的js

选择会触发js时间的按钮，点击event listener，找到js的位置
通过chrome中的search all file来搜索url中关键字
添加断点的方式来查看js的操作，通过python来进行同样的操作

requests其他命令

#将cookie转化成字典
requests.util.dict_from_cookiejar(respond.cookie)
#关闭SSL验证
response = requests.get(url,verify=False)
#超时
response = requests.get(url,timeout=)

retrying库(作为多次刷新请求)

from retrying import retry
@retry(stop_max_attempt_number=3)#如果下面函数报错，则再次使用该函数直至最大值，如果没有错误，则正常运行
def function():
	pass

mahuatengmmp

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫笔记1 request基础

resquestsimport resquestsresponse = requests.get(url,headers,)
复制链接

扫一扫

专栏目录