Hadoop项目(一)——利用WebStorm配置Scrapy爬虫框架

最新推荐文章于 2022-06-30 17:46:35 发布

何壹时

最新推荐文章于 2022-06-30 17:46:35 发布

阅读量948

点赞数 24

分类专栏： Hadoop大数据实战文章标签： java 大数据 webstorm hadoop mysql

本文链接：https://blog.csdn.net/huisoul/article/details/121548251

版权

Hadoop大数据实战专栏收录该内容

8 篇文章 9 订阅

订阅专栏

一、前情提要

这次的内容将会结合我之前写的两篇Python深造篇文章，建议大家在阅读本篇文章前先浏览一下👇
Python爬虫深造篇(三)——Scrapy爬虫框架精文
 Python爬虫深造篇(四)——Scrapy爬虫框架启动一个真正的项目

二、为什么Hadoop要配置Scrapy？

在Hadoop集群搭建完成之后，我们完成了Hive、MySQL、Sqoop等安装，既然我们Hadoop是用来大数据分析的，那么必不可少的肯定是数据。这么说吧，我们把Hadoop集群当做是内部，他的数据来源只能从外部传入，而不能直接在内部获取，所以我们就需要借助爬虫将爬取的数据存入MySQL，我们接着利用Sqoop将数据传入内部的****分布式文件存储系统，然后利用MapReduce完成数据分析，分析后再将数据返回给外部进行可视化和存储。

三、安装Scrapy

首先我们需要在WebStorm里创建一个空项目👇
在这里插入图片描述
创建成功后，我们在主界面的左下角找到 Terminal（终端）点击展开命令行界面👇

在命令行中输入 pip install scrapy 命令并回车运行安装👇

在这里插入图片描述
等待安装完成后，输入scrapy 测试是否安装成功，如安装成功将会输出版本信息，命令等👇

四、创建Scrapy项目

和之前的python实战文章介绍的方法一样，在WebStrom命令行输入 scrapy startproject 项目名 的方式创建Scrapy项目↓

在这里插入图片描述
然后我们在之前创建的空项目中就能看到创建的Scrapy项目了↓

它的目录结构及文件含义如下↓

项目名
├── 项目名         # 项目代码所在的目录
│   ├── __init__.py
│   ├── items.py     # 定义数据的格式
│   ├── middlewares.py
│   ├── pipelines.py   # 处理数据、输出到文件等等
│   ├── settings.py    # 一些设置
│   └── spiders      # 爬虫所在的目录
│       └── __init__.py
└── scrapy.cfg

本次分享只是简单的介绍了如何在WebStorm配置Scrapy，之后等我的项目完成后，将会继续更新后续内容，谢谢大家阅读！！

何壹时

关注

24
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
23
评论
Hadoop项目(一)——利用WebStorm配置Scrapy爬虫框架

一、前情提要这次的内容将会结合我之前写的两篇Python深造篇文章，建议大家在阅读本篇文章前先浏览一下????Python爬虫深造篇(三)——Scrapy爬虫框架精文Python爬虫深造篇(四)——Scrapy爬虫框架启动一个真正的项目二、为什么Hadoop要配置Scrapy？在Hadoop集群搭建完成之后，我们完成了Hive、MySQL、Sqoop等安装，既然我们Hadoop是用来大数据分析的，那么必不可少的肯定是数据。这么说吧，我们把Hadoop集群当做是内部，他的数据来源只能从外部传入，
复制链接

扫一扫