2015年12月_笔尖的痕

12月 11月 10月 08月 07月 06月 05月 04月 03月 01月

转载 Apache Spark源码走读之4 -- DStream实时流数据处理

Spark Streaming能够对流数据进行近乎实时的速度进行数据处理。采用了不同于一般的流式数据处理模型，该模型使得Spark Streaming有非常高的处理速度，与storm相比拥有更高的吞能力。本篇简要分析Spark Streaming的处理模型，Spark Streaming系统的初始化过程，以及当接收到外部数据时后续的处理步骤。系统概述流数据的特点与一

2015-12-23 18:24:15 1386

转载 Apache Spark源码走读之3 -- Task运行期之函数调用关系分析

概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的，另外试图讲清楚运行着的task其输入的数据从哪获取，处理的结果返回到哪里，如何返回。准备 spark已经安装完毕spark运行在local mode或local-cluster mode local-cluster mode local-cluster模式也称为伪分布式，可以使用如下

2015-12-23 18:10:10 783

转载 Apache Spark源码走读之2 -- Job的提交与运行

概要本文以wordCount为例，详细说明spark创建和运行job的过程，重点是在进程及线程的创建。实验环境搭建在进行后续操作前，确保下列条件已满足。下载spark binary 0.9.1安装scala安装sbt安装java 启动spark-shell 单机模式运行，即local模式 local模式运行非常简单，只要运行以下命令即可，假设当

2015-12-23 17:55:16 892

转载 Spark Streaming 订单关联案例剖析

Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计，使得它拥有比 Hadoop 更高的性能（极端情况下可以达到 100x），并且对多语言（Scala、Java、Python）提供支持。其一栈式设计特点使得我们的学习和维护成本大大地减少，而且其提供了很好的容错解决方案。本文将详细地介绍如何使用 Spark St

2015-12-17 18:26:15 656

原创收藏的网址

机器学习： http://www.oschina.net/news/53818/awesome-machine-learning

2015-12-15 18:23:14 796

转载 maven 打包时出现非法字符： /65279错误

碰到的一个问题：使用下面的命令给工程打包时， maven mvn clean package -Ptest01 -Dmaven.test.skip=true && pause 出现了/65279的错误，，而且还是出现在相关文件的第一行。百度了一下，原因很简单，就是文件的编码错误。解决方法1. 在sts（eclipse内核）中的抛出错误

2015-12-11 13:59:47 1096

转载 ArrayIndexOutOfBoundsException: 48188

解决办法：工程使用了maven，排查这个问题一天，最后确定问题出现在如下配置上 jaxen jaxen 1.1.1 删除该配置即可。此配置与Jersey的Rest服务冲突导致报错。 Jaxen的是一个Java编写的开源的XPath库。这是适应多种不同的对象模型，包括DOM，XOM，dom4j和JDOM。也可以

2015-12-11 13:58:53 981