scrapy基本使用

最新推荐文章于 2024-04-22 15:42:39 发布

づ七爷

最新推荐文章于 2024-04-22 15:42:39 发布

阅读量1.1k

点赞数 1

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53039581/article/details/124321578

版权

1.scrapy安装

-pip install scrapy

2.创建爬虫项目

（1）win + R 打开cmd

（2）进入创建项目的文件夹

（3）scrapy startproject 项目的名字

注意：项目的名字不允许使用数字开头，切不能包含中文

例： scrapy startproject scrapy_baidu_34

3.创建爬虫文件

（1）在spiders文件夹下创建爬虫文件

cd 项目的名字\项目的名字\spiders

例：cd scrapy_baidu_34\scrapy_baidu_34\spiders

（2）创建爬虫文件

scrapy genspider 爬虫文件的名字要爬取的网页

例：scrapy genspider baidu www.baidu.com

注意：网页网址前不要添加http协议

因为start_urls的值是根据allowed_domains修改的，会自动添加http://******/

如果写了http协议，在程序中手动删掉即可

3.运行爬虫代码

scarpy crawl 爬虫的名字

例：scrapy crawl baidu

此时运行会发现打印语句没有执行

这是因为爬虫遵循君子协议

我们需要在项目中找到settings文件，并找到如下语句，将其注释或将ROBOTSTXT_OBEY的值改为false

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

此时重新运行

发现已成功打印

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scrapy基本使用

爬虫 scrapy基本使用
复制链接

扫一扫

博客等级

码龄4年

20
原创

127
点赞

791
收藏

52
粉丝

关注

私信

热门文章

分类专栏

最新评论

虚拟机（VMware）安装Linux（Ubuntu）安装教程
编程小孟: 按照步骤到了“更新和其他软件”的时候显示没有网络怎么办，后期怎么补救大神能指导一下么？
卷积神经网络的维度变化
づ七爷: 一般般
卷积神经网络的维度变化
KZ_雪豹: 哇！你写的真是太好啦！！！
卷积神经网络的维度变化
CSDN-Ada助手: 恭喜你写了第20篇博客！标题“卷积神经网络的维度变化”听起来很有深度和挑战性。希望你能继续保持创作的热情和耐心，探索更多关于卷积神经网络的知识。或许下一步可以尝试结合实际案例，深入探讨不同维度变化对于模型性能的影响，相信会有更多有趣的发现等着你。加油！期待你更多精彩的博客作品。
MySQL数据库删除数据后自增主键不连续的问题
HSHGDHC: 可以了，兄弟感谢😊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。