Scrapy爬虫框架的应用丨Python爬虫实战系列(9)

最新推荐文章于 2024-03-20 10:00:00 发布

互联网阿星

最新推荐文章于 2024-03-20 10:00:00 发布

阅读量528

点赞数 2

文章标签： python 爬虫数据挖掘网络爬虫 Scrapy

本文链接：https://blog.csdn.net/m0_68103523/article/details/124934222

版权

本文介绍了如何使用Scrapy爬虫框架从ZCOOL网站批量采集数据，包括配置文件如start.py、settings.py、item.py，详细讲解了页面数据的提取、翻页实现及数据存储在CSV文件的过程。最后展示了运行结果和数据存储的样例。

摘要由CSDN通过智能技术生成

📃个人主页：互联网阿星🧐
💬格言：选择有时候会大于努力，但你不努力就没得选
🔥作者简介：大家好我是互联网阿星，和我一起合理使用Python，努力做时间的主人
🏆如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

行业资料：PPT模板、简历模板、行业经典书籍PDF
面试题库：历年经典、热乎的大厂面试真题，持续更新中…
学习资料：含Python基础、爬虫、数据分析、算法等学习视频和文档
Tips：以上资料·阿星已备好>>戳我，空投直达🪂

前言

本节，阿星将使用Scrapy获取zcool数据作为示例

Scrapy爬虫框架的应用

案例说明

通过Python爬虫基础入门，我们已经初步了解了scrapy的工作流程以及原理。
在这里插入图片描述

imgLink(封面图片链接)；
title(标题）;
types（类型）;
vistor（人气）;
comment（评论数）;
likes（推荐人数）

然后只是一个页面的item，我们还要通过翻页实现批量数据采集。

文件配置

目录结构

在上一篇中我们说明了新建scrapy项目（zcool）和spider项目（zc），这里不再赘述，然后得到我们的目录结构如下图所示：

start.py文件

然后为了方便运行，在zcool目录下新建start文件。并进行初始化设置。

from scrapy import cmdline
cmdline.execute('scrapy crawl zc'.split())

settings.py文件

在这个文件里我们需要做几样设置👇

避免在程序运行的时候打印log日志信息

  LOG_LEVEL = 'WARNING' 
 ROBOTSTXT_OBEY = False

添加请求头：

打开管道：

item.py文件

import scrapy

class ZcoolItem(scrapy.Item):
    # define the fields for your item here like:
    imgLink = scrapy.Field() # 封面图片链接
    title = scrapy.Field() # 标题

最低0.47元/天解锁文章

互联网阿星

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Scrapy爬虫框架的应用丨Python爬虫实战系列(9)

本节讲解 Python Scrapy爬虫框架的实战案例，通过对实战案例的讲解，进一步认识 Scrapy库🏆如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞
复制链接

扫一扫