- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 Spark1.6.0——HiveThriftServer2的生命周期管理
前言几年前,我在刚刚进入大数据领域的时候,很快就了解到Hive所提供的一种另类的SQL。最初使用Hive的命令行提交任务,后来便用上了HiveServer和HiveServer2。半年前第一次注意到Spark的Thrift服务,当时心中就笃定它肯定与HiveServer2有着某种联系,直到在工作中真正使用它。在使用HiveThriftServer2的过程中,通过故障排查、源码分析和功能优化...
2018-03-09 11:43:03 4040
原创 Spark2.1命令工具类CommandUtils的源码分析
注:本文是为了配合《Spark内核设计的艺术 架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录F的内容都在本文呈现。 CommandUtils是Spark中最常用的工具类之一,其作用是为了构建进程。如果不太关心其实现也不影响对Spark源码的阅读和原理的学习。我们要介绍的方法如下:buildProcessBuilder功能描述:基于给定的参数创建ProcessBuil...
2018-03-09 11:40:53 1004
原创 附录E Hadoop的word count例子
注:本文是为了配合《Spark内核设计的艺术——架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录E的内容都在本文呈现。 这里主要演示Hadoop1.0版本中的word count例子,用于和Spark中的实现对比。package org.apache.hadoop.examples;import java.io.IOException;import java.ut...
2018-03-04 16:54:09 758
原创 Spark2.1 RPC工具类RpcUtils
注:本文是为了配合《Spark内核设计的艺术 架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录H的内容都在本文呈现。 RpcUtils是RpcEnv中经常用到的工具类,这里讲简要介绍其中提供的方法。lookupRpcTimeout功能描述:根据提供的配置属性列表获取Rpc查找的超时时间,spark.rpc.lookupTimeout属性的优先级更高。RpcTimeou...
2018-03-01 10:12:50 1889
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人