2015年03月_白乔

11月 10月 08月 06月 04月 03月 02月 01月

原创 spark下测试akka的分布式通讯功能

采用的spark版本为1.1.0scala版本为2.10.4编写scala类文件myactors.scala：package bluejoeimport akka.actor._import com.typesafe.config.ConfigFactoryimport akka.remote.RemoteScopeclass LocalActor extends akka.actor

2015-03-29 21:38:15 2397

原创 akka创建actor时报错：IllegalArgumentException: no matching constructor found on class $iwC$$iwC$$iwC$$iwC$

在spark-shell中输入范例中的代码：import akka.actor.Actorimport akka.actor.Propsimport akka.event.Logging class MyActor extends Actor { val log = Logging(context.system, this) def receive = { case "te

2015-03-28 22:09:27 2970 1

http://www.cnblogs.com/hequn/articles/3764630.html当程序的要求达到一台计算机的极限时，我们便需要将程序分布式化，让程序运行在多台计算机上。akka提供了remote actor用来构建分布式应用。一、remote actor1.Actor path　　actor的路径设计采用了类似URL的形式，即scheme://domain:port/path。

2015-03-26 18:06:37 11645 2

转载 Memcached 工作原理

http://hzp.iteye.com/blog/1872664Memcached处理的原子是每一个（key，value）对（以下简称kv对），key会通过一个hash算法转化成hash-key，便于查找、对比以及做到尽可能的散列。同时，memcached用的是一个二级散列，通过一张大hash表来维护。Memcached有两个核心组件组成：服务端（ms）和客户端（mc），在一个memcached

2015-03-26 09:39:03 886

转载分析Redis架构设计

http://blog.csdn.net/a600423444/article/details/8944601一、前言因为近期项目中开始使用Redis，为了更好的理解Redis并应用在适合的业务场景，需要对Redis设计与实现深入的理解。我分析流程是按照从main进入，逐步深入分析Redis的启动流程。同时根据Redis初始化的流程，理解Redis各个模块的功能及原理。二、redis启动流程1.初

2015-03-24 14:44:53 1653 1

转载 Hive体系结构介绍

http://www.aboutyun.com/thread-6217-1-1.html 1、Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至

2015-03-17 13:58:42 2084

原创学习GraphX

首先准备如下社交图形数据：打开spark-shell；导入相关包：import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDD创建如上graph对象：// Create an RDD for the verticesval users: RDD[(VertexId, (Stri

2015-03-16 16:50:46 2999 1

转载 hadoop vs spark

http://www.zhihu.com/question/26568496#answer-12035815Hadoop首先看一下Hadoop解决了什么问题，Hadoop就是解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。HDFS，在由普通PC组成的集群上提供高可靠的文件存储，通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。MapReduce

2015-03-12 15:06:59 1328

转载 BSP模型

http://www.uml.org.cn/yunjisuan/201212191.aspHama中最关键的就是BSP(Bulk Synchronous Parallel-“大型”同步模型)模型, BSP的概念由Valiant(1990)提出的，“块”同步模型，是一种异步MIMD-DM模型，支持消息传递系统，块内异步并行，块间显式同步，该模型基于一个master协调，所有的worker同步(loc

2015-03-12 11:29:21 3957

原创 spark向量、矩阵类型

先来个普通的数组：scala> var arr=Array(1.0,2,3,4)arr: Array[Double] = Array(1.0, 2.0, 3.0, 4.0)可以将它转换成一个Vector：scala> import org.apache.spark.mllib.linalg._scala> var vec=Vectors.dense(arr)vec: org.apache.sp

2015-03-12 10:05:55 9248

原创 “换位思考”帮你做好部门主管

最近遇到几个同事，谈及对主管工作的一些手足无措，我倒是一直没感觉到有多难，说起诀窍，我想主要还是靠“换位思考”吧！说到底，就是要跳出来，审视自己的角色定位。当然，“换位思考”同样适用于不同岗位的人，这里我主要针对业务主管的岗位说点废话。业务主管，对下带团队，带1个小组，或者带N个小组，对上向老板（或者上一级部门领导）负责。那么问题来了，对下，你想过员工和组长的感受没？对上，你想过老板的感受没？员工

2015-03-11 14:06:18 1778 2

原创 spark处理jsonFile

按照spark的说法，这里的jsonFile是特殊的文件：Note that the file that is offered as jsonFile is not a typical JSON file. Each line must contain a separate, self-contained valid JSON object. As a consequence, a regular

2015-03-10 13:22:15 9077

转载 Dremel made simple with Parquet

http://lastorder.me/tag/parquet.htmlhttps://blog.twitter.com/2013/dremel-made-simple-with-parquet对于优化『关系型数据库上的分析任务』，列式存储（Columnar Storage）是个比较流行的技术. 这一技术对处理大数据集的好处是有据可查的，可以参见诸多学术资料，以及一些用作分析的商业数据库.(h

2015-03-10 09:37:14 1935 1

转载从NSM到Parquet：存储结构的衍化

http://blog.csdn.net/dc_726/article/details/41777661为了优化MapReduce及MR之前的各种工具的性能，在Hadoop内建的数据存储格式外，又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile，以及配合Impala实现出Google Dremel功能(类似甚至是功能的超集)的Parquet等。今天就来一起学习一下HDFS中数据存储的

2015-03-10 09:30:03 961

原创 spark stream初探

spark带了一个NetworkWordCount测试程序，用以统计来自某TCP连接的单词输入：/usr/local/spark/bin/run-example streaming.NetworkWordCount localhost 9999再启动netcat： nc -lk 9999尝试输入一些单词：hello worlddamn it可以看到NetworkWordCount产生如下输出：-

2015-03-09 10:14:23 3134

转载大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

http://www.aboutyun.com/thread-6855-1-1.html个人观点：大数据我们都知道hadoop，但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理，hadoop还是比较适合的，但是对于实时性比较强的，数据量比较大的，我们可以采用Storm，那么Storm和什么技术搭配，才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章：1.一

2015-03-06 15:44:14 1986

转载 Spark Shuffle实现

http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/对于大数据计算框架而言，Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现，并将之与MapReduce进行简单对比。本文的介绍顺序是：shuffle基本概念，MapReduce Shuffle发展史以及Spa

2015-03-06 10:24:22 1733

原创 spark下统计单词频次

2015-03-06 08:51:54 8261

转载使用PSSH批量SSH操作Linux服务器

http://www.opstool.com/article/266服务器多了，有一个烦恼就是如何批量快速操作一堆服务器。这里我推荐一下经常使用利器pssh。这个工具给我的工作带来了莫大的帮助。简介pssh是一款开源的软件，使用python实现。用于批量ssh操作大批量机器。pssh的项目地址https://code.google.com/p/parallel-ssh/安装在pssh的项目主页找到

2015-03-05 11:07:18 1364

原创搭建scala开发环境

下载scala 2.11.5安装eclipse LUNA版本安装scala IDE插件：http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site 还可以安装jd-gui，用以反编译生成的class文件，参见http://jd.benow.ca/，或者从如下地址下载：http://download.csdn.net/de

2015-03-04 21:18:27 729

原创 scala学习笔记：理解stream和view

先来个正常的：scala> (0 to 5).map((x:Int)=>{println(x);x*2}).foreach(println)0123450246810再来个stream版的：scala> (0 to 5).toStream.map((x:Int)=>{println(x);x*2}).foreach(println)00122436485

2015-03-01 22:54:20 3043

pdsh-2.26源文件

pdsh的全称是parallel distributed shell，与pssh类似，pdsh可并行执行对远程目标主机的操作，在有批量执行命令或分发任务的运维需求时，使用这个命令可达到事半功倍的效果。同时，pdsh还支持交互模式，当要执行的命令不确定时，可直接进入pdsh命令行，非常方便。

2017-02-06

oauth2的示例工程源代码spring-security-oauth-samples（含war包）

oauth2的示例工程源代码，含build好的war包来源于github，但build会很耗时间直接取出2个target目录下的war文件改名为tonr2.war和sparklr2.war 置于webapps下启动tomcat后，访问http://localhost:8080/tonr2 即可体验演示工程

2016-02-15

java反编译器的GUI版本：jd-gui

很好的java反编译器，忘掉eclipse插件吧：）本人的eclipse无论安装哪种java反编译器，总是失败~~~ 绝望中找到jd-gui jd-gui可以关联上eclipse中的.class文件并自动在左侧的目录视图中打开class文件所在的目录同时支持各个class之间的跳转 http://jd.benow.ca/

2015-02-25

spring security oauth2的client演示包tonr2

spring security oauth2的client演示包tonr2，所有的jar都齐全了

2014-10-09

spring-security-oauth2下的sparklr2的war包

spring-security-oauth2下的sparklr2的war包，官方的没有现成的war包，需要使用maven打包，这个是打包好的

2014-10-09

HTTPAnalyzer v7.rar

HTTPAnalyzer v7 很好的HTTP通讯监控窗口，可用来调试

2014-09-16

bigdata架构白皮书

bigdata架构白皮书，bigdata是开源的RDF数据库

2014-08-30

Jena-HBase - A Distributed, Scalable and Efficient RDF Triple Store

基于Jena的分布式RDF数据库实现，可自由伸缩，三元组

2014-08-11

jena-arq2.9

jena arq 2.9的源码下载 semantic web RDF处理中间件

2013-12-16

spring-security-oath2自带sample的sparklr的war版

spring-security-oath2自带sample的sparklr的war版好不容易mvn成功的，供下载！

2013-08-26

spring-security-oath2自带sample的tonr的war版

spring-security-oath2自带sample的tonr的war版好不容易mvn成功的，供下载！