一、前情提要
这次的内容将会结合我之前写的两篇Python深造篇文章,建议大家在阅读本篇文章前先浏览一下👇
Python爬虫深造篇(三)——Scrapy爬虫框架精文
Python爬虫深造篇(四)——Scrapy爬虫框架启动一个真正的项目
二、为什么Hadoop要配置Scrapy?
在Hadoop集群搭建完成之后,我们完成了Hive、MySQL、Sqoop等安装,既然我们Hadoop是用来大数据分析的,那么必不可少的肯定是数据。这么说吧,我们把Hadoop集群当做是内部,他的数据来源只能从外部传入,而不能直接在内部获取,所以我们就需要借助爬虫将爬取的数据存入MySQL,我们接着利用Sqoop将数据传入内部的****分布式文件存储系统,然后利用MapReduce完成数据分析,分析后再将数据返回给外部进行可视化和存储。
三、安装Scrapy
首先我们需要在WebStorm里创建一个空项目👇
创建成功后,我们在主界面的左下角找到 Terminal(终端)点击展开命令行界面👇
在命令行中输入 pip install scrapy 命令并回车运行安装👇
等待安装完成后,输入scrapy 测试是否安装成功,如安装成功将会输出版本信息,命令等👇
四、创建Scrapy项目
和之前的python实战文章介绍的方法一样,在WebStrom命令行输入 scrapy startproject 项目名 的方式创建Scrapy项目↓
然后我们在之前创建的空项目中就能看到创建的Scrapy项目了↓
它的目录结构及文件含义如下↓
项目名
├── 项目名 # 项目代码所在的目录
│ ├── __init__.py
│ ├── items.py # 定义数据的格式
│ ├── middlewares.py
│ ├── pipelines.py # 处理数据、输出到文件等等
│ ├── settings.py # 一些设置
│ └── spiders # 爬虫所在的目录
│ └── __init__.py
└── scrapy.cfg
本次分享只是简单的介绍了如何在WebStorm配置Scrapy,之后等我的项目完成后,将会继续更新后续内容,谢谢大家阅读!!