- 博客(1)
- 资源 (7)
- 收藏
- 关注
原创 基于热销商品宝贝的数据调用分析
在项目中,我们将利用Spark对省钱快淘网站上的商品进行离线和在线分析。本文中用到的技术有Scrapy爬虫+ Kafka + MongoDB + Spark Streaming + Spark MLlib + Spark SQL.接下来我们将结合具体代码进行分析。 获取数据 在本项目中我们主要使用省钱快淘上各种类型小说作为数据集来源。我们首先需要使用Scrapy对网站中的商品进行抓取,我们主要抓取的内容为:商品名称、作者、类型、简介。具体体现在网站上如下图所示: ...
2020-05-25 20:05:11 459
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人