Scrapy

下载Scrapy

在cmd命令窗口下输入
pip install Scrapy

创建文件夹

在cmd命令窗口下cd到想要创建的目录下输入:
scrapy startproject 项目名
创建文件夹,如出现以下界面将代表创建成功:
在这里插入图片描述
然后cd到第二层项目名的文件夹下,例如:
在这里插入图片描述

在命令提示窗口输入:
scrapy genspider tencent(python名) “tencent.com”(需要爬取的网站)
出现以下界面将代表创建成功在这里插入图片描述
然后cd到spiders文件目录下,就可以看到tencecnt.py将其进行编程
对start_urls变量进行设置成想要爬取的目标链接:
如果只需要爬取一页可以不对其进行设置
如果爬取需要翻页的页面利用offset变量将其进行拼接,如图在这里插入图片描述
即可在parse下用xpath或者其他对网页进行爬取,例如:在这里插入图片描述
之后通过“管道”对spiders下的items.py进行设置,如上图比较而来:在这里插入图片描述
之后对tencent.py(主程序)进行设置将其连接,例如:在这里插入图片描述

注:这里需要导入自己的模块在这里插入图片描述

之后通过命令提示窗口进入到spiders文件下再在命令提示窗口下输入
scrapy crawl itcast -o itcast.json
如图在这里插入图片描述

注:这里本机的是ITcast文件下的spiders文件,如果是另一个爬虫文件那么这里的ITcast将需要改变。

之后即可对其网站进项爬取,结果如图:
在这里插入图片描述
这里会生成一个json文件
在这里插入图片描述

注:这里还提供了另外三种文件格式。

在这里插入图片描述

csv:

在这里插入图片描述

xml:

在这里插入图片描述

注:这里都是没用经过转码的,所以显示的都是乱码。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值