scrapy苏宁爬虫+无头浏览器+splash渲染

最新推荐文章于 2023-04-14 19:43:08 发布

一个支点a

最新推荐文章于 2023-04-14 19:43:08 发布

阅读量924

点赞数

文章标签： python lua

本文链接：https://blog.csdn.net/weixin_41321563/article/details/108872825

版权

scrapy爬虫

selenium + chrome篇

写个博客纪念一下本人在第一次使用scrapy爬虫所遇到的种种困难和个人探索，希望能给以后尝试爬虫的一些帮助，能避免的坑都避免掉，毕竟是现有的框架，有些问题深究起来真的很费神。

首先本人此次是为了爬苏宁8个品牌的电器，其中由于苏宁网页存js和ajax动态加载，需要模拟或者渲染才能请求到其中的部分数据，于是本人首先尝试了应用较多的Chrome浏览器的无头模式进行模拟下拉操作。

下载google浏览器driver的时候要注意版本对应（其实没有特别严格，最前面的数字对应上就行），一般你用最近的浏览器和最近的driver就是可行的，本人用的 85.0.4183.121Chrome，对应diver只要85.0开头就行了，这里给出chromedriver的下载链接，window都是写的32位的，但是64位系统的也是可以用的。

下载链接：
https://chromedriver.storage.googleapis.com/index.html

from selenium import webdriver
options = webdriver.ChromeOptions()
self.browser = webdriver.Chrome(executable_path = r'C:\Users\HP\Desktop\SuNingScrapy\SuNingScrapy\chromedriver.exe',\
chrome_options=options)
      prefs = {
   
            'profile.default_content_setting_values': {
   
                'images': 2
            }
        }
options.add_experimental_option('prefs', prefs)
# 设置无头浏览器
options.add_argument('--headless')

设置好了之后就使用js脚本实现下拉加载的过程：

#一种是直接下拉到最下面，两种写法，这个10000指像素
self.browser.execute_script(

最低0.47元/天解锁文章

一个支点a

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy苏宁爬虫+无头浏览器+splash渲染

请求百度首页：http://www.baidu.comfunction main(splash,args) assert(splash:go(args.url)) assert(splash:wait(0.5)) return{ html = splash:html(), png = splash:png(), har = splash.har() }end并发请求渲染，在脚本内调用的 wait() 方法类似于 Python 中的 sleep()，其参数为
复制链接

扫一扫