python 爬虫之scrapy-splash 带cookie请求示例

43 篇文章 3 订阅
26 篇文章 0 订阅

简单示例

这是一个scrapy + splash 带cookie请求网站的示例,适用于需要登录且是js渲染的网站抓取。

1.首先需要导入这些包:

在这里插入图片描述

2.编写起始方法:

在方法里,SplashRequest是启动splash的方法,其他你如果是想完成登录操作的话,你可以使用SplashFormRequest方法带参登录。

在这里插入图片描述

3. 在lua里设置请求头:

众所周知,splash可以通过lua进行调用,相比与selenium可以在python里直接写动作代码还是稍微复杂了些,不过lua作为一门脚本语言,学习还是挺平滑的,而且在lua里面你还可以调用js,这给了爬虫很大的可能性。
在这里插入图片描述

4.下面附上代码
import scrapy
from scrapy_splash import SplashRequest
from scrapy.loader import ItemLoader
from ..import items

log_lua = '''
function main(splash, args)
    -- 自定义请求头
    splash:set_custom_headers({
        ["Cookie"] = “cookie内容"
    })
    assert(splash:go(args.url))
    assert(splash:wait(1.5))
    return {
        html = splash:html(),
    }
end
'''


class GlideskySpider(scrapy.Spider):
    name = 'g'
    allowed_domains = ['www.g.com']

    start_urls = ['http://www..com?page=' + str(i) for i in range(1, 1001)]

    def start_requests(self):  # 起点
        for url in self.start_urls:
            yield SplashRequest(
                url,
                callback=self.parse,
                endpoint='execute',
                args={'lua_source': log_lua},

            )


    def parse(self, response):
        item = ItemLoader(item=Item(), response=response)
        item.add_xpath('number', '//div[@class="col-md-1"]//text()')
        return item.load_item()
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笑笑布丁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值