scrapy crawlspider爬取小程序社区教程文章

本文档介绍如何利用Scrapy的CrawlSpider爬虫框架抓取小程序社区的文章教程,重点在于分享spider(wxjcspider.py)和数据处理管道(pipelines.py)的实现细节。
摘要由CSDN通过智能技术生成

这里主要给出spider中的代码
wxjcspider.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from wxjc.items import WxjcItem


class WxjcspiderSpider(CrawlSpider):
    name = 'wxjcspider'
    allowed_domains = ['wxapp-union.com']
    start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']

    rules = (
    #这里我有一个问题,当我给出完整的url     allow=r' http://www.wxapp-union.com/portal.php? mod=list&catid=2&page=\d+'
    #时,爬虫只能爬取第一页的数据
        Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d+'),follow=True),
        Rule(LinkExtractor(allow=r'http://www.wxapp-union.com/article-\d+-1\.html'),callback="parse_item",follow=False)
            )

    def parse_item(self, response):
        content = response.xpath("//td[@id='article_content']//text()").getall()
        title = response.xpath("//div[@class='cl']/h1[@class='ph']/text()").get()
        out_time = response.xpath("//span[@class='time']/text()").get().strip()

        content = ''.join(content).strip()
        item = WxjcItem(content=content,title =title,out_time=out_time)
        yield item

pipelines.py

from scrapy.exporters import JsonLinesItemExporter

class WxjcPipeline(object):
    def process_item(self, item, spider):
        with open('wxjc.json','ab') as fp:
            JsonLinesItemExporter(fp,encoding='utf-8').export_item(item)
       #这里的return item一定不能删了,在这个类中可能有多个pipline,需要item
        return item
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值