网易新闻 scrapy +selenium

利用scrapy框架进行网站内容的爬取,这个时候不可避免地就会遇到动态加载的数据。这个时候就需要与selenium结合起来,用selenium进行模拟浏览器登陆,获得动态加载的数据。具体地说是在下载中间件的那一步将相应数据进行处理,得到动态加载的数据,再将这个数据返回个spider。这一篇博客可能对这个原理部分讲的更清楚scrapy中selenium的应用

获取网易新闻这个项目原教程链接是让我们能够将scrapy与selenium结合起来使用。我觉得最重要的是要理解下面这张图
在这里插入图片描述

如果说能基本理解的话,也就能理解下面这段代码里面的方法
wangyi.py

import scrapy
from selenium import webdriver
from wangyiPro.items import WangyiproItem

class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    # allowed_domains = ['www.x.c']
    start_urls = ['https://news.163.com/']
    models_url = []

    def __init__(self):
        self.brow = webdriver.Chrome(executable_path='D:\\practice_code\python\spider_basic\\tutorial_last_part\\chromedriver.exe')
    def parse(self, response):
        li_list = response.xpath('//*[@id="index2016_wrap"]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li')
        li_index = [3,4,6,7]
        # print('li_list', li_list)

        for index in li_index:
            url = li_list[index].xpath('./a/@href').extract_first()
            self.models_url.append(url)
        # print('models_url', self.models_url)

        #对每一个模块对应的url发起请求
        for url in self.models_url:
            yield scrapy.Request(url, callback=self.parse_model)

    def parse_model(self, response):
        div_list = response.xpath('/html/body/div/div[3]/div[4]/div[1]/div/div/ul/li/div/div')
        for div in div_list:
            title = div.xpath('.//div/div[1]/h3/a/text()').extract_first()
            new_detail_url = div.xpath('.//div/div[1]/h3/a/@href').extract_first()

            item = WangyiproItem()
            item['title'] = title
            # 对详情页发起请求
            yield scrapy.Request(url=new_detail_url, callback=self.parse_detail, meta={'item': item})
            # 注意上面对于meta传参的作用,将title与content进行合并,但两个在不同的方法里面
    def parse_detail(self, response):
        content = response.xpath('//*[@id="content"]/p/text()').extract()
        content = ''.join(content)
        item = response.meta['item']
        item['content'] = content

        yield item

    def closed(self, spider):
        self.brow.quit()

目前来看,刚开始接触这类代码自己写的话最难的地方就是参数的传递,像这个例子中title像下面的传递给parse_detail()方法就是很好的例子。

下面这段是持久化存储的代码
pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class WangyiproPipeline:

    def __init__(self):
        self.fp = None

    # 下面三个方法都是在重写父类方法
    def open_spider(self, spider):  # spider
        print('打开文件')
        self.fp = open('./wangyi_title.txt', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        # with open('./wangyi_title/', 'w', encoding='utf-8') as fp:  #这样的话只会保留最后一个新闻

        # length = len(item['content'])
        # print(length)
        # con_str = ''
        # for i in range(length // 80):
        #     con_str += item['content'][i*80:(i+1)*80]
        #     con_str += '\n'
        self.fp.write('title: ' + item['title'] + '\n')
        self.fp.write('content: ' + item['content'] +'\n')
        print(item['title'])
        print('content:', item['content'])
        return item
    def close_spider(self, spider):
        self.fp.close()
        print('文件已经关闭')

问题记录
  • 用meta进行参数传递是很重要的一个点
  • pipelines.py中打开文件和关闭文件都是对父类方法的重写,里面的参数spider不能掉。
  • 本来是要将写入的数据每80个子换一行的结果就是换不了。这个就不搞了
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值