Scrapy

最新推荐文章于 2024-07-31 14:30:10 发布

Carry away NaNa

最新推荐文章于 2024-07-31 14:30:10 发布

阅读量107

点赞数 1

分类专栏： python爬虫Scarpy框架文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55854549/article/details/117195340

版权

python爬虫Scarpy框架专栏收录该内容

1 篇文章 0 订阅

订阅专栏

下载Scrapy

在cmd命令窗口下输入
pip install Scrapy

创建文件夹

在cmd命令窗口下cd到想要创建的目录下输入：
scrapy startproject 项目名
创建文件夹，如出现以下界面将代表创建成功：
在这里插入图片描述
然后cd到第二层项目名的文件夹下，例如：

在命令提示窗口输入：
scrapy genspider tencent(python名) “tencent.com”(需要爬取的网站)
出现以下界面将代表创建成功在这里插入图片描述
然后cd到spiders文件目录下，就可以看到tencecnt.py将其进行编程
对start_urls变量进行设置成想要爬取的目标链接：
如果只需要爬取一页可以不对其进行设置
如果爬取需要翻页的页面利用offset变量将其进行拼接，如图在这里插入图片描述
即可在parse下用xpath或者其他对网页进行爬取，例如：
之后通过“管道”对spiders下的items.py进行设置，如上图比较而来：
之后对tencent.py(主程序)进行设置将其连接，例如：

注：这里需要导入自己的模块

之后通过命令提示窗口进入到spiders文件下再在命令提示窗口下输入
scrapy crawl itcast -o itcast.json
如图在这里插入图片描述

注：这里本机的是ITcast文件下的spiders文件，如果是另一个爬虫文件那么这里的ITcast将需要改变。

之后即可对其网站进项爬取，结果如图：
在这里插入图片描述
这里会生成一个json文件

注：这里还提供了另外三种文件格式。

在这里插入图片描述

csv：

在这里插入图片描述

xml：

在这里插入图片描述

注：这里都是没用经过转码的，所以显示的都是乱码。

Carry away NaNa

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy

下载Scrapy在cmd命令窗口下输入pip install Scrapy创建文件夹在cmd命令窗口下cd到想要创建的目录下输入：scrapy startproject 项目名创建文件夹，如出现以下界面将代表创建成功：然后cd到第二层项目名的文件夹下，例如：在命令提示窗口输入：scrapy genspider tencent(python名) “tencent.com”(需要爬取的网站)出现以下界面将代表创建成功然后cd到spiders文件目录下，就可以看到tencecnt.py将
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。