在项目中,我们将利用Spark对省钱快淘网站上的商品进行离线和在线分析。本文中用到的技术有Scrapy爬虫+ Kafka + MongoDB + Spark Streaming + Spark MLlib + Spark SQL.接下来我们将结合具体代码进行分析。
获取数据
在本项目中我们主要使用省钱快淘上各种商品宝贝作为数据集来源。我们首先需要使用Scrapy对网站中的商品进行抓取,我们主要抓取的内容为:商品名称、掌柜、店铺类型、宝贝简介。具体体现在网站上如下图所示:
基于热销商品宝贝的数据调用分析
最新推荐文章于 2022-02-25 13:53:56 发布