工作中与项目中需要取抓取一些股票的实时信息等,有两种取到可以获取到一些需要的数据,一种是花钱买一些接口服务,还有就是爬虫取网站爬取。
本人略了解tcp/ip与http以及https协议,后两者作为建立在tcp/ip之上的应用层,在爬虫中最麻烦的可能就是cookies的获取,通过cookies信息,对方服务器就可以判断
你是机器行为还是可能是人,简单的网站,可以直接从响应头获取到cookies,但如果是通过js设置的cookies或者其它取到设置的,那就很难获取到。
如果cookies就算拿到了,最近在工作中还碰到在Post请求中,不仅带上了你的请求信息,还会通过一些算法携带一些认证信息,这个携带的认证信息,很有可能是通过cookie或者其它的一些参数计算出来的固定或者非固定的值。
如果为固定值,只需要拿到该post请求头中的请求体信息就好了,如果为变动值,那只能通过破解js代码的逻辑,自己再算一套【现在还未碰到过如此变态的反爬】
Python的爬虫中,我个人使用最多的应该是requests模块,作为封装在urllib包基础上的模块,确实用起来很爽。如果在requests中,带上需要的头信息,那对方服务器也就会欢迎你了。
所以让selenium配合requests那用起来就嗨了。
通过这里作者的转载:https://www.cnblogs.com/startnow/p/14635147.html
可以发现三种方式,但我个人的总结,其实就是两种,一种是通过代理将selenium与服务器之间的所有交互拦截下来,然后分析其中的数据,
还有一种本质是通过selenium内部的功能,拦截selenium内部的日志信息,然后通过查看日志,然后找出需要的请求信息。
第一个是selenium-wire来实现,这是包的地址https://github.com/wkeeling/selenium-wire
通过pip可以安装使用,这个软件本质也是在selenium与目标地址的交互中,设置了代理,通过代理,可以修改与获取网络传输中的任何信息。
from seleniumwire import webdriver
driver = webdriver.Chrome()
driver.get('https://www.google.com')
for request in driver.requests:
if request.response:
print(
request.url,
request.response.status_code,
request.response.headers['Content-Type']
)
这种方式还是比较方便的,你不用自己设置代理,不需要自己取处理繁杂的本地与服务器之间的交互信息,通过该模块提供的接口就可以实现功能的实现。
第二种方式是通过自己假设代理服务器,来处理浏览器与服务器交互的信息
代理的软件,我使用的是browsermob-proxy,地址在:https://github.com/lightbody/browsermob-proxy
该软件通过Java编写,我不懂Java那就看如何用,下面展示的是我在mac上的使用配置。
# 启动代理
server = Server('browsermob-proxy-2.1-1.4/bin/browsermob-proxy')
server.start()
proxy = server.create_proxy()
# 启动浏览器
# chrome_options = Options()
# chrome_options.add_argument('--ignore-certificate-err