Python 通过 Scrapy 爬取 CSDN 文章信息

本文详细介绍了如何使用Python的Scrapy框架爬取CSDN上的单页面文章信息。从新建项目、分析页面、编写爬虫到执行程序,每个步骤都有清晰的说明,旨在帮助读者通过实践学习Scrapy爬虫开发。文章提醒读者在实际操作中注意浏览器看到的元素与爬虫获取的元素可能存在差异,并提供了源代码下载链接。
摘要由CSDN通过智能技术生成

本文主要利用 Scrapy 框架实现一个网路爬虫,爬取 CSDN 单页面文章的一些信息。写爬虫不是目的,通过实践来学习才是。

提示:Scrapy 安装请参考 Scrapy在Windows平台的安装

新建项目

  1. 创建项目
    scrapy startproject blog
  2. 切换项目目录
    cd blog
  3. 创建爬虫文件
    scrapy genspider csdn blog.csdn.net

分析页面

我们要爬取的页面为用户的文章列表页面。
例如:https://blog.csdn.net/qq_28537277

我们要爬取的关键信息如下图标记。
在这里插入图片描述
浏览器进入开发者模式。Ctrl+F。通过 xpath 定位每个元素位置。
在这里插入图片描述

爬虫

  1. items.py 中定义字段
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class BlogItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    article_type = scrapy.Field()
    article_title = scrapy.Field()
    create_date = scrapy.Field()
    read_num = scrapy.Field()
    comment_num = scrapy.Field
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值