![](https://img-blog.csdnimg.cn/20190927151026427.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析与存储
文章平均质量分 85
记录自己在spark与flink开发中所获得理解,还有一些想法和笔记
Hello_Ray
想要作导弹试飞员的男人
展开
-
互联网中热门产品计算的方案
摘要在我们日常生活中,热门推荐是一个很重要的推荐,也是一个推荐系统的起步。不需要详细记录用户的信息,就可以为用户推荐热门的产品。本文从日志打印、到日志分析、最终形成推荐候选集的方面进行阐述,本文的设计热门产品计算的计算瓶颈取决于Java中的Map能存放多少条数据。如下图是计算每个产品的流程图。1 在用户端需要添加日志记录,比如以用户点击为热度指标,那么在用户点击某个产品后,则进行记录,并将日志记录在某个文件内。2 在用户行为信息形成日志后,需要对其对日志聚合分析,形成如下的Map结构性的数据"i原创 2021-05-18 22:50:36 · 892 阅读 · 1 评论 -
记录spark本地开发的历程
本地使用scala开发spark,首先需要安装和配置scala,spark以及hadoop环境。scala安装在scala官网下载,https://www.scala-lang.org/download/ 我选择的是scala 2.13版本,下载完成后,scala配置到系统的path中去,配置方法像jdk那种。spark和hadoop环境安装下载spark的地址:http://spark.apache.org/downloads.html ,入下图所示,我下载是图中的spark-3.0.3-bin-原创 2021-07-04 23:47:03 · 470 阅读 · 4 评论