spark
文章平均质量分 61
自由幻想的人儿
这个作者很懒,什么都没留下…
展开
-
Spark中master与worker的进程通信实现
1.构建master的actor package SparkRPC import akka.actor.{Actor, ActorSystem, Props} import com.typesafe.config.ConfigFactory import scala.collection.mutable /** * Created by hqs on 2018/1/24. * 1.原创 2018-01-27 22:05:02 · 2561 阅读 · 1 评论 -
Spark中自定义分区器实现shuffle
Spark中实现了两种类型的分区函数,一个是基于哈希的HashPartitioner,另外一个是基于范围的RangPartitioner。只对于key--value的 的RDD才有Partitioner。决定shuffle后的分区输出数量。同时我们可以自定义Partitioner。 import java.net.URL import org.apache.spark.rdd原创 2018-01-27 23:18:11 · 1848 阅读 · 1 评论 -
Spark的高可用机制HA
1.安装zookeeper集群,修改配置文件,之后启动zookeeper的服务。 之后使用命令zkServer.sh start分别启动你的每台机器上面的zk服务。可以使用命令zkServer.sh status查看状态。 2.已经安装好spark集群。在配置文件中修改一些配置,将master的信息注册在你的zookeeper的集群上。 具体的命令是: export SPA原创 2018-01-28 20:04:00 · 756 阅读 · 0 评论 -
Spark中ip映射数据应用库,二分查找省份,将结果写入mysql
需求: * 根据数据应用库,查找ip对应的省份,将数据写出到mysql。(二分查找方法) * 使用广播变量进行执行优化。 import java.sql.{Connection, DriverManager, PreparedStatement} import org.apache.spark.broadcast.Broadcast import org.apache.spark.rdd.原创 2018-01-28 23:17:53 · 799 阅读 · 1 评论