【Python爬虫】之获取请求头信息以及cookies信息.

最新推荐文章于 2024-05-03 11:07:56 发布

VIP文章菜鸟蜀黍

最新推荐文章于 2024-05-03 11:07:56 发布

阅读量4.9k

点赞数 4

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/u013522009/article/details/125235488

版权

工作中与项目中需要取抓取一些股票的实时信息等，有两种取到可以获取到一些需要的数据，一种是花钱买一些接口服务，还有就是爬虫取网站爬取。

本人略了解tcp/ip与http以及https协议，后两者作为建立在tcp/ip之上的应用层，在爬虫中最麻烦的可能就是cookies的获取，通过cookies信息，对方服务器就可以判断

你是机器行为还是可能是人，简单的网站，可以直接从响应头获取到cookies，但如果是通过js设置的cookies或者其它取到设置的，那就很难获取到。

如果cookies就算拿到了，最近在工作中还碰到在Post请求中，不仅带上了你的请求信息，还会通过一些算法携带一些认证信息，这个携带的认证信息，很有可能是通过cookie或者其它的一些参数计算出来的固定或者非固定的值。

如果为固定值，只需要拿到该post请求头中的请求体信息就好了，如果为变动值，那只能通过破解js代码的逻辑，自己再算一套【现在还未碰到过如此变态的反爬】

Python的爬虫中，我个人使用最多的应该是requests模块，作为封装在urllib包基础上的模块，确实用起来很爽。如果在requests中，带上需要的头信息，那对方服务器也就会欢迎你了。

所以让selenium配合requests那用起来就嗨了。

通过这里作者的转载:https://www.cnblogs.com/startnow/p/14635147.html

可以发现三种方式，但我个人的总结，其实就是两种，一种是通过代理将selenium与服务器之间的所有交互拦截下来，然后分析其中的数据，

还有一种本质是通过selenium内部的功能，拦截selenium内部的日志信息，然后通过查看日志，然后找出需要的请求信息。

第一个是selenium-wire来实现，这是包的地址https://github.com/wkeeling/selenium-wire

通过pip可以安装使用，这个软件本质也是在selenium与目标地址的交互中，设置了代理，通过代理，可以修改与获取网络传输中的任何信息。

from seleniumwire import webdriver 
driver = webdriver.Chrome()
driver.get('https://www.google.com')
for request in driver.requests:
    if request.response:
        print(
            request.url,
            request.response.status_code,
            request.response.headers['Content-Type']
        )

这种方式还是比较方便的，你不用自己设置代理，不需要自己取处理繁杂的本地与服务器之间的交互信息，通过该模块提供的接口就可以实现功能的实现。

第二种方式是通过自己假设代理服务器，来处理浏览器与服务器交互的信息

代理的软件，我使用的是browsermob-proxy，地址在:https://github.com/lightbody/browsermob-proxy

该软件通过Java编写，我不懂Java那就看如何用，下面展示的是我在mac上的使用配置。

# 启动代理
server = Server('browsermob-proxy-2.1-1.4/bin/browsermob-proxy')
server.start()
proxy = server.create_proxy()
 
# 启动浏览器
# chrome_options = Options()
# chrome_options.add_argument('--ignore-certificate-err

最低0.47元/天解锁文章

菜鸟蜀黍

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Python爬虫】之获取请求头信息以及cookies信息.

工作中与项目中需要取抓取一些股票的实时信息等，有两种取到可以获取到一些需要的数据，一种是花钱买一些接口服务，还有就是爬虫取网站爬取。本人略了解tcp/ip与http以及https协议，后两者作为建立在tcp/ip之上的应用层，在爬虫中最麻烦的可能就是cookies的获取，通过cookies信息，对方服务器就可以判断你是机器行为还是可能是人，简单的网站，可以直接从响应头获取到cookies，但如果是通过js设置的cookies或者其它取到设置的，那就很难获取到。如果cookies就算拿到了，最近在工作中还碰到
复制链接

扫一扫