Spark
文章平均质量分 76
小小的天和蜗牛
一门心思搞技术!
展开
-
Spark中的广播变量broadcast
1,为什么要使用广播变量?简单说,就是在分布式计算的时候,每个节点或者多个节点需要相同的少部分数据,而这些数据仅仅存在于某个节点,此时可以使用广播变量,将数据以广播的形式下发到Executor中,然后通过blockManager从Executor中获取数据,并保存到本地,可以极大的减少节点间的网络IO。1.问题描述:将来数据量可能很大,所以ip规则肯定是存储在HDFS中的,这样在读取的时候根据切片...原创 2018-07-05 17:45:18 · 1091 阅读 · 0 评论 -
Spark之---【ML】算法库ALS简介
1. 协同过滤内容协同过滤显性反馈与隐性反馈缩放正则化参数冷启动问题2. 协同过滤协同过滤 通常用于推荐系统。 这些技术旨在填写用户项关联矩阵的缺失条目。 spark.ml 目前支持基于模型的协同过滤, 其中用户和产品由一小组可用于预测缺失条目的潜在因素描述。spark.ml 使用交替最小二乘( ALS) 算法来学习这些潜在因素。 实现中 spark.ml 包含以下参数:num...原创 2019-03-16 22:42:59 · 3010 阅读 · 0 评论 -
Spark之---UpdateStateByKey算子操作
1.说明SparkStreaming的一般是7天24小时不停息的运行,而在运行的时候,中间会有很多的状态,而有些状态我们需要一些操作,比如累计,更新或者其他的操作。那么如何将这些独立的状态联系起来就成了一种迫切的需求。2.介绍UpdateStateByKey的主要功能:1、为Spark Streaming中每一个Key维护一份state状态,state类型可以是任意类型的, 可以是一个自...原创 2019-04-22 17:25:01 · 7252 阅读 · 0 评论