用python爬取隐藏内容,用Scrapy抓取隐藏数据

博客内容涉及使用Scrapy爬虫框架配合Splash服务来处理网页中的JavaScript内容。作者在代码中展示了如何设置Spider以请求Splash渲染HTML,并从响应中提取数据。在控制台中,作者成功获取到了正确答案。
摘要由CSDN通过智能技术生成

据我所知,设置正确的选项值涉及到javascript逻辑。在

帮助我解决这个问题的是^{} middleware,它使用Splash浏览器即服务。跳过安装和配置,下面是我执行的spider:# -*- coding: utf-8 -*-

import scrapy

class IndiaBixSpider(scrapy.Spider):

name = "indiabix"

allowed_domain = ["www.indiabix.com"]

start_urls = ["http://www.indiabix.com/verbal-ability/spotting-errors/"]

def start_requests(self):

for url in self.start_urls:

yield scrapy.Request(url, meta={

'splash': {

'endpoint': 'render.html',

'args': {'wait': 0.5}

}

})

def parse(self, response):

for question in response.css("div.bix-div-container"):

answer = question.xpath(".//input[starts-with(@id, 'hdnAnswer')]/@value").extract()

print answer

下面是我在控制台上看到的(正确答案):

^{2}$

另请参见:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值