爬虫笔记1 request基础

requests

import requests
#地址,参数,头
response = requests.get(url=,params=,headers=,data=)
#获取网页
response.content.decode()

requests代理

proxies = {'http':'http://','https':'https://'}
requests.get(url,proxies)

保持服务器会话

session = requests.session()
r1 = session.post(url)
r2 = session.get(url)
  • 先实例化一个session
  • 使用session访问网站,cookie会存储在session中
  • 存储了cookie的session可以继续用这个cookie访问网站

寻找登陆的POST地址

  • 在form表单中寻找action对应url地址

    • 是post的数据是input标签中name的值作为键(data字典里的键),真正的用户名和密码作为值的字典,post的url地址就是action对应的url地址
  • 抓包,寻找登录的url地址

    • 勾选perserve log按钮,防止页面跳转找不到url
    • 寻找post数据,确定参数
      • 参数不变
        • 参数在当前的响应中
        • 通过js生成

定位想要的js

  • 选择会触发js时间的按钮,点击event listener,找到js的位置
  • 通过chrome中的search all file来搜索url中关键字
  • 添加断点的方式来查看js的操作,通过python来进行同样的操作

requests其他命令

#将cookie转化成字典
requests.util.dict_from_cookiejar(respond.cookie)
#关闭SSL验证
response = requests.get(url,verify=False)
#超时
response = requests.get(url,timeout=)

retrying库(作为多次刷新请求)

from retrying import retry
@retry(stop_max_attempt_number=3)#如果下面函数报错,则再次使用该函数直至最大值,如果没有错误,则正常运行
def function():
	pass
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值