抓取网易新闻标题和内容--scrapy+selenium

sen_sir12138

于 2021-07-06 14:54:38 发布

阅读量223

点赞数

文章标签：中间件网易 xpath meta

本文链接：https://blog.csdn.net/sen_sir12138/article/details/118519662

版权

import scrapy
from wangyipro.items import WangyiproItem
from selenium import webdriver

class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    #allowed_domains = ['www.xxx.com']
    start_urls = ['https://news.163.com/']
    models_urls=[]
    
    bro=webdriver.Edge(executable_path ='msedgedriver.exe')

    def parse(self, response):
        li_list=response.xpath('//*[@id="index2016_wrap"]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li')
        alist=[3,4]#,6,7
        for index in alist:
            model_url=li_list[index].xpath('./a/@href').extract_first()
            self.models_urls.append(model_url)

        for url in self.models_urls:
            yield scrapy.Request(url,callback=self.parse_model)
        

    def parse_model(self,response):
        div_list=response.xpath('/html/body/div[1]/div[3]/div[4]/div[1]/div[1]/div/

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sen_sir12138

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
抓取网易新闻标题和内容--scrapy+selenium

import scrapyfrom wangyipro.items import WangyiproItemfrom selenium import webdriverclass WangyiSpider(scrapy.Spider): name = 'wangyi' #allowed_domains = ['www.xxx.com'] start_urls = ['https://news.163.com/'] models_urls=[] br.
复制链接

扫一扫