scrapy解析基本操作

最新推荐文章于 2022-06-12 21:51:12 发布

ragerabbitr

最新推荐文章于 2022-06-12 21:51:12 发布

阅读量505

点赞数

分类专栏： python自学解决问题笔记 scrapy 文章标签： html 前端 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ragerabbitr/article/details/122275139

版权

本文介绍了使用Scrapy进行Web爬虫的基本操作，包括创建项目、设置参数和在spider.py文件中解析HTML。通过一个海贼王漫画在线阅读的例子，详细解释了如何利用Scrapy的xpath进行内容提取，如获取a标签及其span选择器的内容。

摘要由CSDN通过智能技术生成

scrapy一般的解析操作都存储在spider源文件当中，以海賊王漫畫_1036已更新_海賊王漫畫在線閱讀解析为例

第一步：创建项目及文件

python的scrapy工程的创建步骤_ragerabbitr的博客-CSDN博客

第二步：初始的参数调整

scrapy的初始化的一些设定_ragerabbitr的博客-CSDN博客

第三步：进入spider.py爬虫文件中

解释：所有的start_urls中的地址scrapy都会发送请求，然后返回的每个response用parse函数用来解析。scrapy可以直接用xpath解析，不用导入各种包了，方便很多。也可以用bs4和re但是要自己导入包，不过用xpath之后，bs4基本没怎么用过，re正则还是会用的，有时候匹配字符串用。

整体代码如下，解析的是漫画每个章节的标签：

import scrapy

class MangabzSpider(scrapy.S

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy解析基本操作

scrapy中源文件的数据解析用法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。