- 博客(8)
- 资源 (13)
- 收藏
- 关注
转载 Apache Spark源码走读之4 -- DStream实时流数据处理
Spark Streaming能够对流数据进行近乎实时的速度进行数据处理。采用了不同于一般的流式数据处理模型,该模型使得Spark Streaming有非常高的处理速度,与storm相比拥有更高的吞能力。 本篇简要分析Spark Streaming的处理模型,Spark Streaming系统的初始化过程,以及当接收到外部数据时后续的处理步骤。 系统概述 流数据的特点 与一
2015-12-23 18:24:15 1386
转载 Apache Spark源码走读之3 -- Task运行期之函数调用关系分析
概要 本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。 准备 spark已经安装完毕spark运行在local mode或local-cluster mode local-cluster mode local-cluster模式也称为伪分布式,可以使用如下
2015-12-23 18:10:10 783
转载 Apache Spark源码走读之2 -- Job的提交与运行
概要 本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。 实验环境搭建 在进行后续操作前,确保下列条件已满足。 下载spark binary 0.9.1安装scala安装sbt安装java 启动spark-shell 单机模式运行,即local模式 local模式运行非常简单,只要运行以下命令即可,假设当
2015-12-23 17:55:16 892
转载 Spark Streaming 订单关联案例剖析
Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计,使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x),并且对多语言(Scala、Java、Python)提供支持。其一栈式设计特点使得我们的学习和维护成本大大地减少,而且其提供了很好的容错解决方案。 本文将详细地介绍如何使用 Spark St
2015-12-17 18:26:15 656
转载 maven 打包 时出现非法字符: /65279错误
碰到的一个问题: 使用下面的命令给工程打包时, maven mvn clean package -Ptest01 -Dmaven.test.skip=true && pause 出现了/65279的错误,,而且还是出现在相关文件的第一行。 百度了一下,原因很简单,就是文件的编码错误。 解决方法1. 在sts(eclipse内核)中的抛出错误
2015-12-11 13:59:47 1096
转载 ArrayIndexOutOfBoundsException: 48188
解决办法:工程使用了maven,排查这个问题一天,最后确定问题出现在如下配置上 jaxen jaxen 1.1.1 删除该配置即可。 此配置与Jersey的Rest服务冲突导致报错。 Jaxen的是一个Java编写的开源的XPath库。这是适应多种不同的对象模型,包括DOM,XOM,dom4j和JDOM。也可以
2015-12-11 13:58:53 981
hadoop-cdh4.6配置文件
2014-05-02
ext2Spring
2013-11-23
hadoopDemo-mapreduce
2013-11-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人