scrapy简单使用方法

最新推荐文章于 2024-07-12 13:48:49 发布

不想当小白

最新推荐文章于 2024-07-12 13:48:49 发布

阅读量773

点赞数

分类专栏：随笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38813668/article/details/104218828

版权

随笔记专栏收录该内容

25 篇文章 0 订阅

订阅专栏

步骤：

1、在编译器（我用的Pycharm）里新建文件夹，名称随意

2、从终端（Anaconda Prompt）中进入所创建的文件夹（Anaconda Prompt中切换C盘和D盘方法见上篇博客）

3、在该文件夹中创建scrapy框架，即执行命令：

scrapy startproject Name

其中，Name是自己命名的项目名

4、在编译器中更改该文件夹中新生成的settings文件：

第22行,把 ROBOTSTXT_OBEY=True 改为 False（这行代码表示是否遵循爬虫协议,如果是Ture的可能有些内容无法爬取）

第67到69行代码解注释,并把300改为1（这是优先级设置）

5、在Name文件夹中的spider文件夹下进行爬虫操作，因此在Anaconda Prompt中更改当前路径，进入到spider文件夹

6、创建爬虫文件，即在Anaconda Prompt中执行命令：

scrapy genspider baidu_spider baidu.com

其中，baidu_spider为新建的python文件名称，可以随意更改，但不能与项目名相同，后面的baidu.com是准备爬取的网站的url

7、在编译器中打开新建的baidu_spider文件，之后所有的爬取操作都由这个文件控制（主要由parse函数控制）。

补全baidu_spider.py中的url，更改parse中的内容（具体看需要，可以直接print（response.body）输出网页源码或者其他任意操作都可）

8、开始爬取，即在Anaconda Prompt中执行代码：

scrapy crawl baidu_spider

不想当小白

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scrapy简单使用方法

步骤：1、在编译器（我用的Pycharm）里新建文件夹，名称随意2、从终端（Anaconda Prompt）中进入所创建的文件夹（Anaconda Prompt中切换C盘和D盘方法见上篇博客）3、在该文件夹中创建scrapy框架，即执行命令：scrapy startproject Name其中，Name是自己命名的项目名4、在编译器中更改该文件夹中新生成的setting...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。