scrapy苏宁爬虫+无头浏览器+splash渲染

scrapy爬虫

selenium + chrome篇

写个博客纪念一下本人在第一次使用scrapy爬虫所遇到的种种困难和个人探索,希望能给以后尝试爬虫的一些帮助,能避免的坑都避免掉,毕竟是现有的框架,有些问题深究起来真的很费神。

首先本人此次是为了爬苏宁8个品牌的电器,其中由于苏宁网页存js和ajax动态加载,需要模拟或者渲染才能请求到其中的部分数据,于是本人首先尝试了应用较多的Chrome浏览器的无头模式进行模拟下拉操作。

下载google浏览器driver的时候要注意版本对应(其实没有特别严格,最前面的数字对应上就行),一般你用最近的浏览器和最近的driver就是可行的,本人用的 85.0.4183.121Chrome,对应diver只要85.0开头就行了,这里给出chromedriver的下载链接,window都是写的32位的,但是64位系统的也是可以用的。

下载链接
https://chromedriver.storage.googleapis.com/index.html

from selenium import webdriver
options = webdriver.ChromeOptions()
self.browser = webdriver.Chrome(executable_path = r'C:\Users\HP\Desktop\SuNingScrapy\SuNingScrapy\chromedriver.exe',\
chrome_options=options)
      prefs = {
   
            'profile.default_content_setting_values': {
   
                'images': 2
            }
        }
options.add_experimental_option('prefs', prefs)
# 设置无头浏览器
options.add_argument('--headless')

设置好了之后就使用js脚本实现下拉加载的过程:

#一种是直接下拉到最下面,两种写法,这个10000指像素
self.browser.execute_script(
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值