Hadoop项目(一)——利用WebStorm配置Scrapy爬虫框架

一、前情提要

这次的内容将会结合我之前写的两篇Python深造篇文章,建议大家在阅读本篇文章前先浏览一下👇
Python爬虫深造篇(三)——Scrapy爬虫框架精文
Python爬虫深造篇(四)——Scrapy爬虫框架启动一个真正的项目

二、为什么Hadoop要配置Scrapy?

Hadoop集群搭建完成之后,我们完成了Hive、MySQL、Sqoop等安装,既然我们Hadoop是用来大数据分析的,那么必不可少的肯定是数据。这么说吧,我们把Hadoop集群当做是内部,他的数据来源只能从外部传入,而不能直接在内部获取,所以我们就需要借助爬虫将爬取的数据存入MySQL,我们接着利用Sqoop将数据传入内部的****分布式文件存储系统,然后利用MapReduce完成数据分析,分析后再将数据返回给外部进行可视化和存储。

三、安装Scrapy

首先我们需要在WebStorm里创建一个空项目👇
在这里插入图片描述
创建成功后,我们在主界面的左下角找到 Terminal(终端)点击展开命令行界面👇
在这里插入图片描述
在命令行中输入 pip install scrapy 命令并回车运行安装👇

在这里插入图片描述
等待安装完成后,输入scrapy 测试是否安装成功,如安装成功将会输出版本信息,命令等👇
在这里插入图片描述

四、创建Scrapy项目

和之前的python实战文章介绍的方法一样,在WebStrom命令行输入 scrapy startproject 项目名 的方式创建Scrapy项目↓

在这里插入图片描述
然后我们在之前创建的空项目中就能看到创建的Scrapy项目了↓
在这里插入图片描述
它的目录结构及文件含义如下↓

项目名
├── 项目名         # 项目代码所在的目录
│   ├── __init__.py
│   ├── items.py     # 定义数据的格式
│   ├── middlewares.py
│   ├── pipelines.py   # 处理数据、输出到文件等等
│   ├── settings.py    # 一些设置
│   └── spiders      # 爬虫所在的目录
│       └── __init__.py
└── scrapy.cfg

本次分享只是简单的介绍了如何在WebStorm配置Scrapy,之后等我的项目完成后,将会继续更新后续内容,谢谢大家阅读!!

  • 24
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 23
    评论
二手房统计分析是一个基于Hadoop的综合项目,旨在帮助人们深入了解二手房市场情况并进行相应的统计分析。 首先,我们需要收集大量的二手房交易数据。可以从不同的渠道收集数据,如网络房产平台、中介公司等。通过使用Hadoop的分布式文件系统(HDFS),可以将这些数据存储在集群中的多个节点上,以便后续的处理和分析。 然后,需要对收集到的数据进行清洗和预处理。这包括去除重复数据、处理缺失值和异常值等。通过使用Hadoop的MapReduce框架,可以将清洗和预处理任务并行化处理,以提高处理效率和准确性。 接下来,可以进行一些常见的统计分析。比如,可以计算不同城市二手房价格的平均值、中位数和标准差,以了解各个城市的房价水平和波动程度。同样地,还可以计算不同地区的交易量和均价,以找到二手房交易的热点区域。 此外,也可以进行数据可视化的工作,以方便人们更直观地理解二手房市场情况。通过使用Hadoop的数据处理工具和可视化库,如Hive和Tableau,可以将统计分析的结果以图表或地图的形式展示出来。 最后,还可以通过机器学习技术进行更深入的分析。比如,可以建立预测模型来预测二手房价格,或者进行聚类分析找到不同类型的二手房市场。通过使用Hadoop的机器学习库,如Spark MLlib,可以更高效地处理大规模的数据和模型训练。 总之,通过Hadoop的分布式计算和数据处理能力,二手房统计分析项目可以帮助人们更好地了解二手房市场情况,并提供相应的统计和预测分析,以支持人们做出更明智的决策。
评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

何壹时

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值