自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 spark-sql流程解析

最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL优化器经验却基本全部来自于传统...

2018-02-12 16:32:10 412

转载 storm

Apache Storm 官方文档 —— 消息的可靠性保障Storm 能够保证每一个由 Spout 发送的消息都能够得到完整地处理。本文详细解释了 Storm 如何实现这种保障机制,以及作为用户如何使用好 Storm 的可靠性机制。消息的“完整性处理”是什么意思一个从 spout 中发送出的 tuple 会产生上千个基于它创建的 tuples。例如,有这样一个 wo

2017-11-30 15:15:48 256

转载 sparkSQL架构分析

这篇博文内容虽然有点点过时,但对于初学者理解sparkSQL架构帮助还是很大的。作者思路清晰并恰当的点出了sparkSQL各阶段实现的关键类或方法,值得收藏和转载。1、sql语句的模块解析   当我们写一个查询语句时,一般包含三个部分,select部分,from数据源部分,where限制条件部分,这三部分的内容在sql中有专门的名称:当我们写sql时,如上图所示,在进行

2017-08-23 23:17:52 710

转载 Spark常用函数讲解之键值RDD转换

摘要:RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子:        Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住       了数据集的逻辑操作         Ati

2017-03-12 23:58:09 444

原创 kafka启动时内存异常

一 启动时内存不足## There is insufficient memory for the Java Runtime Environment to continue.# Native memory allocation (malloc) failed to allocate 986513408 bytes for committing reserved memory.#

2017-02-15 22:55:38 9634

原创 spark资源调度流程总结

初学spark在Standalone模式下的资源调度机制,发现学习源码是理解spark一切机制的根本。现在对相关spark2.1.0源码的学习做个梳理。一应用程序提交时Master中对Driver和Executor的启动控制和资源分配机制。首先进入Master.scala中查看Master类,资源调度流程学习从receive方法的case RegisterApplicaiton(作

2017-01-10 23:32:36 1399

转载 Spark集群中HA环境搭建

1.环境介绍(1)操作系统ubuntu16.4.0(2)两个节点:spark1(192.168.232.147),spark2(192.168.232.152) (生产环境下一般配置3台)(3)两个节点上都装好了Hadoop 2.2集群2.安装Zookeeper3.4.5(1)下载Zookeeper:http://apache.fayea.com/zookeeper(2)解

2016-12-31 12:21:51 335

转载 集群环境ssh免密码登录设置

集群环境ssh免密码登录设置一、准备工作1) 用客户端工具(ssh client或者putty)连接到linux服务器。在root用户下输入命令vi /etc/hosts,用vi编辑hosts文件,如下:#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

2016-12-31 12:09:56 269

转载 深入理解Spark RDD抽象模型

深入理解Spark RDD抽象模型和编写RDD函数Spark revolves around the concept of a resilient distributed dataset (RDD), which is an immutable , fault-tolerant , partitioned collection of elements that can be opera

2016-12-28 21:06:18 4993

转载 spark master web ui 端口8080被占用解决办法

spark master web ui 默认端口为8080,当系统有其它程序也在使用该接口时,启动master时也不会报错,spark自己会改用其它端口,自动端口号加1,但为了可以控制到指定的端口,我们可以自行设置,修改方法:1、cd SPARK_HOME/sbin2、vi start-master.sh3、mster启动脚本中,该命令用来控制WEBUI的默认端口:if [ "$S

2016-12-25 22:42:47 4239

原创 hadoop进程WEB无法访问的问题

背景:PC系统从Win7升级到Win10。重新安装hadoop,配置正常,进程启动正常,老实关闭防火墙,WEB无法访问节点的任何端口。问题描述:PC系统升级,虚拟机安装ubuntu16.4.0。按部就班的安装JDK和HADOOP,配置环境变量;配置HADOOP中各个配置文件,且namenode等端口均使用默认端口;关闭防火墙,启动hdfs进程;查看hadoop进程,以及启动的监听端口,OK

2016-12-25 17:12:41 8481 1

转载 ubuntu 16.04 启用root用户方法

1、使用:sudo passwd root设置root的密码,如下图所示:2、使用su root来测试是否可以进入root用户,如果出现#说明已经设置root用户的密码成功,如下图所示:3、进入到/usr/share/lightdm/lightdm.conf.d/目录,使用gedit 50-unity-greeter.conf &命令打开50-unity-greeter.c

2016-12-22 23:14:57 659

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除