Scrapy加Selenium爬取简书

最新推荐文章于 2024-07-03 19:58:12 发布

derrick_lh

最新推荐文章于 2024-07-03 19:58:12 发布

阅读量423

点赞数

分类专栏：爬虫学习 python爬虫

本文链接：https://blog.csdn.net/derrick_lh/article/details/105006241

版权

本文介绍了如何结合Scrapy爬虫框架和Selenium浏览器模拟工具，来应对动态加载的网页，实现从简书平台高效、完整地抓取数据。详细讲解了爬虫主体结构、Item定义、Middleware中间件配置、Pipeline处理流程以及Settings参数设置等关键步骤。

摘要由CSDN通过智能技术生成

爬虫主体：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from js_spi.items import ArticleItem


class JsSpider(CrawlSpider):
    name = 'js'
    allowed_domains = ['jianshu.com']
    start_urls = ['https://www.jianshu.com/']

    rules = (
        Rule(LinkExtractor(allow=r'.*/p/[0-9a-z]{12}.*'), callback='parse_page', follow=True),
    )

    def parse_page(self, response):
        title = response.xpath('//section[@class="ouvJEz"]/h1/text()').get()
        author = response.xpath('//span[@class="FxYr8x"]/a/text()').get()
        edit_time = response.xpath('//div[@class="s-dsoj"]//time/text()').get()
        content = response.xpath('//article[@class="_2rhmJa"]').getall()
        fav_count = response.xpath('//span[@class="_1LOh_5"]/text()').get()
        text_type = '|'.join(response.xpath('//a[@class="_3s5t0Q _1OhGeD"]/span/text()').getall())
        item = ArticleItem(title=title,
                           author=author,
                           edit_time=edit_time,
                           content=content,
                           fav_count=fav_count,
                           text_type=text_type)

最低0.47元/天解锁文章

derrick_lh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
Scrapy加Selenium爬取简书

爬虫主体：# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom js_spi.items import ArticleItemclass JsSpider(CrawlSpid...
复制链接

扫一扫

专栏目录