scrapy crawlspider爬取小程序社区教程文章

最新推荐文章于 2021-08-30 08:45:34 发布

竹里清风，竹外尘

最新推荐文章于 2021-08-30 08:45:34 发布

阅读量147

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/qq_44210926/article/details/98765486

版权

python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文档介绍如何利用Scrapy的CrawlSpider爬虫框架抓取小程序社区的文章教程，重点在于分享spider（wxjcspider.py）和数据处理管道（pipelines.py）的实现细节。

摘要由CSDN通过智能技术生成

这里主要给出spider中的代码
wxjcspider.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from wxjc.items import WxjcItem


class WxjcspiderSpider(CrawlSpider):
    name = 'wxjcspider'
    allowed_domains = ['wxapp-union.com']
    start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']

    rules = (
    #这里我有一个问题，当我给出完整的url     allow=r' http://www.wxapp-union.com/portal.php? mod=list&catid=2&page=\d+'
    #时，爬虫只能爬取第一页的数据
        Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d+'),follow=True),
        Rule(LinkExtractor(allow=r'http://www.wxapp-union.com/article-\d+-1\.html'),callback="parse_item",follow=False)
            )

    def parse_item(self, response):
        content = response.xpath("//td[@id='article_content']//text()").getall()
        title = response.xpath("//div[@class='cl']/h1[@class='ph']/text()").get()
        out_time = response.xpath("//span[@class='time']/text()").get().strip()

        content = ''.join(content).strip()
        item = WxjcItem(content=content,title =title,out_time=out_time)
        yield item

pipelines.py

from scrapy.exporters import JsonLinesItemExporter

class WxjcPipeline(object):
    def process_item(self, item, spider):
        with open('wxjc.json','ab') as fp:
            JsonLinesItemExporter(fp,encoding='utf-8').export_item(item)
       #这里的return item一定不能删了，在这个类中可能有多个pipline，需要item
        return item

竹里清风，竹外尘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy crawlspider爬取小程序社区教程文章

这里主要给出spider中的代码wxjcspider.pyimport scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom wxjc.items import WxjcItemclass WxjcspiderSpider(Crawl...
复制链接

扫一扫

专栏目录