scrapy学习之路(七)selenium获取网页中的图片或多媒体信息

方案是通过DesiredCapabilities设置prefs通过页面的加载日志来获取,依然在DownloaderMiddleware中实现:

(1)webdriver设置perfs:

prefs = {

"profile.managed_default_content_settings.images": {2}

}

 

d = DesiredCapabilities.CHROME

d['goog:loggingPrefs'] = {'performance': 'ALL'}

spider.driver = webdriver.Chrome(desired_capabilities=d,

chrome_options=chrome_options)

 

(2)webdriver打开网页以后,获取日志信息,获取图片或其他多媒体信息,代码如下:

#获得所有网络请求

lo = driver.get_log('performance')

#聚合 请求分类

datalist = {}

for entry in lo:

try:

m = json.loads(

entry['message'])['message']["params"]["response"]

k = m['headers']['Content-Type']

url = m['url']

if k not in datalist:

datalist[k] = [url]

else:

datalist[k].append(url)

except Exception as e:

continue

 

数据可以通过HtmlResponse返回给spider进行解析。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值