Scrapy爬虫开发步骤总结

最新推荐文章于 2023-05-08 09:48:05 发布

Julian Win

最新推荐文章于 2023-05-08 09:48:05 发布

阅读量645

点赞数

分类专栏： Python 文章标签： Scrapy爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/perfer258/article/details/81106286

版权

本文总结了Scrapy爬虫的开发步骤，包括创建项目、生成爬虫文件、使用shell进行页面解析以及编码实现阶段的详细操作。通过scrapy startproject、genspider命令初始化项目，使用fetch和view函数处理Response对象，以及XPath和CSS语法解析数据。编码阶段涉及items、pipelines和Spider类的定制，实现数据封装、处理和爬取逻辑。

摘要由CSDN通过智能技术生成

准备阶段

注：项目需要的所有指令均在cmd终端窗口或者shell终端键入。

一、输入指令scrapy startproject project_name创建scrapy项目

此命令会在当前路径下创建一个指定的项目，并在项目文件目录中生成scrapy爬虫需要的各个py文件，包括items.py、piplines.py、settings.py等。

二、输入指令scrapy genspider spider_name http://example/com生成爬虫文件

此命令会在spider_name.py建立对应的Spider类并生成parse方法以及需要用到的常用变量(最常用的是response)，之后便能在parse方法中编写代码

三、在终端命令窗口运行scrapy shell http://example.com命令。

此命令将得到网站对应的Response对象和Request对象并进入Python的执行环境。

此外该命令下还有几个常用的函数：

fetch(req_or_url)：用于下载页面，可传入一个Request对象或url字符串，调用后会更新变量request和response；

view(response)：该函数会打开爬虫下载的页面并在浏览器中显示；

四、经过第三步之后便可以使用其获得的Response对象进行页面数据的解析提取，用response.xpath()，或者response.css()，如前所述，我们可以使用fetch方法来获取新的页面的Response和Request对象。

在这里介绍XPath和CSS用法。

4.1 Xpath常用基本语法

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Julian Win CSDN认证博客专家 CSDN认证企业博客

码龄9年

27: 原创

14万+: 周排名

213万+: 总排名

13万+: 访问

: 等级

1173: 积分

9: 粉丝

39: 获赞

15: 评论

110: 收藏

私信

关注

热门文章

分类专栏

Qt
C++ 3篇
图形学 1篇
大数据 13篇
数据结构与算法 2篇
Linux 5篇
Java 2篇
Python 3篇
Windows 2篇
服务器 1篇
Scala
工具

最新评论

解决 error C0204: version directive must be first statement and may not be repeated
zqiongy: 谢谢，确实没这个问题了。但还是想说一句，这是什么鬼
解决 error C0204: version directive must be first statement and may not be repeated
afe_ge: 感谢大哥
问题描述：hbase shell启动失败
SuperBigData~: 应该把jline-2.12.jar放进hbase lib里面
acos(-1)或者acos(1)结果为nan
keyuyukuaiee: 我是求平面二维向量的夹角，完整程序如下： #include <iostream>//头文件 #include <math.h> #include <cstring> #define M_RAD_TO_DEG 57.2957795130823f int main()//主函数 { float a[2]={1,1}; float b[2]={2,2}; float a_sqrt = sqrt(a[0]*a[0]+a[1]*a[1]); float b_sqrt = sqrt(b[0]*b[0]+b[1]*b[1]); float cost = (a[0]*b[0]+a[1]*b[1])/(a_sqrt*b_sqrt); printf("cost %.15f\n", cost); cost=std::min(std::max(cost,-1.0f),1.0f); printf("cost %.15f\n", cost); float theta = acosf(cost); printf("theta %f %f\n",theta, theta*M_RAD_TO_DEG); return 0;//结束程序 }
acos(-1)或者acos(1)结果为nan
keyuyukuaiee: 的确是这样，打印时多打印几位才能看得出来: 测试程序: printf("cost %.15f\n", cost); cost=std::min(std::max(cost,-1.0f),1.0f); printf("cost %.15f\n", cost); float theta = acosf(cost); printf("theta %f %f\n",theta, theta*M_RAD_TO_DEG); 打印： cost 1.000000119209290 cost 1.000000000000000 theta 0.000000 0.000000

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。