python爬虫:selenium+browsermobproxy实现浏览器请求抓取(模块安装详解)

前言

        本来很多场景用beautiful和requests就能解决的,但是最近发现了某些网站会使用<link>来链接网页信息,让我没办法通过requests获取页面的具体内容;并且接口也加入了某种token的生成方案,导致我无从下手。

        因此,我使用了selenium+browsermobproxy的方案来解决这个问题(它可以抓取到你通过浏览器F12可以看到的几乎所有的资源)。

        这里是模块的安装方案,如需源码则关注后篇博客

模块安装 

        首先,你需要弄到两个东西,本机浏览器对应版本的driver驱动,还有浏览器代理程序

        下载

        浏览器代理程序:https://github.com/lightbody/browsermob-proxy/releases 

        chrome浏览器驱动下载地址:Chrome for Testing availability 

        如果你不想使用chrome浏览器,那么你需要自己去找这个驱动下载的链接 

  

        解压和所需的目标 

        解压后你将得到这两个东西,这是你后面要使用的关键

 

        python模块安装 

         如下安装这两个python模块

pip install browsermob-proxy
pip install selenium

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值