- 博客(21)
- 资源 (14)
- 收藏
- 关注
原创 spark下测试akka的分布式通讯功能
采用的spark版本为1.1.0scala版本为2.10.4编写scala类文件myactors.scala:package bluejoeimport akka.actor._import com.typesafe.config.ConfigFactoryimport akka.remote.RemoteScopeclass LocalActor extends akka.actor
2015-03-29 21:38:15 2397
原创 akka创建actor时报错:IllegalArgumentException: no matching constructor found on class $iwC$$iwC$$iwC$$iwC$
在spark-shell中输入范例中的代码:import akka.actor.Actorimport akka.actor.Propsimport akka.event.Logging class MyActor extends Actor { val log = Logging(context.system, this) def receive = { case "te
2015-03-28 22:09:27 2970 1
转载 akka构建简单分布式应用
http://www.cnblogs.com/hequn/articles/3764630.html当程序的要求达到一台计算机的极限时,我们便需要将程序分布式化,让程序运行在多台计算机上。akka提供了remote actor用来构建分布式应用。一、remote actor1.Actor path actor的路径设计采用了类似URL的形式,即scheme://domain:port/path。
2015-03-26 18:06:37 11645 2
转载 Memcached 工作原理
http://hzp.iteye.com/blog/1872664Memcached处理的原子是每一个(key,value)对(以下简称kv对),key会通过一个hash算法转化成hash-key,便于查找、对比以及做到尽可能的散列。同时,memcached用的是一个二级散列,通过一张大hash表来维护。Memcached有两个核心组件组成:服务端(ms)和客户端(mc),在一个memcached
2015-03-26 09:39:03 886
转载 分析Redis架构设计
http://blog.csdn.net/a600423444/article/details/8944601一、前言因为近期项目中开始使用Redis,为了更好的理解Redis并应用在适合的业务场景,需要对Redis设计与实现深入的理解。我分析流程是按照从main进入,逐步深入分析Redis的启动流程。同时根据Redis初始化的流程,理解Redis各个模块的功能及原理。二、redis启动流程1.初
2015-03-24 14:44:53 1653 1
转载 Hive体系结构介绍
http://www.aboutyun.com/thread-6217-1-1.html 1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至
2015-03-17 13:58:42 2084
原创 学习GraphX
首先准备如下社交图形数据:打开spark-shell;导入相关包:import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDD创建如上graph对象:// Create an RDD for the verticesval users: RDD[(VertexId, (Stri
2015-03-16 16:50:46 2999 1
转载 hadoop vs spark
http://www.zhihu.com/question/26568496#answer-12035815Hadoop首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。HDFS,在由普通PC组成的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。MapReduce
2015-03-12 15:06:59 1328
转载 BSP模型
http://www.uml.org.cn/yunjisuan/201212191.aspHama中最关键的就是BSP(Bulk Synchronous Parallel-“大型”同步模型)模型, BSP的概念由Valiant(1990)提出的,“块”同步模型,是一种异步MIMD-DM模型,支持消息传递系统,块内异步并行,块间显式同步,该模型基于一个master协调,所有的worker同步(loc
2015-03-12 11:29:21 3957
原创 spark向量、矩阵类型
先来个普通的数组:scala> var arr=Array(1.0,2,3,4)arr: Array[Double] = Array(1.0, 2.0, 3.0, 4.0)可以将它转换成一个Vector:scala> import org.apache.spark.mllib.linalg._scala> var vec=Vectors.dense(arr)vec: org.apache.sp
2015-03-12 10:05:55 9248
原创 “换位思考”帮你做好部门主管
最近遇到几个同事,谈及对主管工作的一些手足无措,我倒是一直没感觉到有多难,说起诀窍,我想主要还是靠“换位思考”吧!说到底,就是要跳出来,审视自己的角色定位。当然,“换位思考”同样适用于不同岗位的人,这里我主要针对业务主管的岗位说点废话。业务主管,对下带团队,带1个小组,或者带N个小组,对上向老板(或者上一级部门领导)负责。那么问题来了,对下,你想过员工和组长的感受没?对上,你想过老板的感受没?员工
2015-03-11 14:06:18 1778 2
原创 spark处理jsonFile
按照spark的说法,这里的jsonFile是特殊的文件:Note that the file that is offered as jsonFile is not a typical JSON file. Each line must contain a separate, self-contained valid JSON object. As a consequence, a regular
2015-03-10 13:22:15 9077
转载 Dremel made simple with Parquet
http://lastorder.me/tag/parquet.htmlhttps://blog.twitter.com/2013/dremel-made-simple-with-parquet对于优化『关系型数据库上的分析任务』,列式存储(Columnar Storage)是个比较流行的技术. 这一技术对处理大数据集的好处是有据可查的,可以参见诸多学术资料,以及一些用作分析的商业数据库.(h
2015-03-10 09:37:14 1935 1
转载 从NSM到Parquet:存储结构的衍化
http://blog.csdn.net/dc_726/article/details/41777661为了优化MapReduce及MR之前的各种工具的性能,在Hadoop内建的数据存储格式外,又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile,以及配合Impala实现出Google Dremel功能(类似甚至是功能的超集)的Parquet等。今天就来一起学习一下HDFS中数据存储的
2015-03-10 09:30:03 961
原创 spark stream初探
spark带了一个NetworkWordCount测试程序,用以统计来自某TCP连接的单词输入:/usr/local/spark/bin/run-example streaming.NetworkWordCount localhost 9999再启动netcat: nc -lk 9999尝试输入一些单词:hello worlddamn it可以看到NetworkWordCount产生如下输出:-
2015-03-09 10:14:23 3134
转载 大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
http://www.aboutyun.com/thread-6855-1-1.html个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章:1.一
2015-03-06 15:44:14 1986
转载 Spark Shuffle实现
http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比。本文的介绍顺序是:shuffle基本概念,MapReduce Shuffle发展史以及Spa
2015-03-06 10:24:22 1733
原创 spark下统计单词频次
写了一个简单的语句,还没有优化:scala> sc. | textFile("/etc/profile"). | flatMap((s:String)=>s.split("\\s")). | map(_.toUpperCase). | map((s:String)=>(s, 1)). | filter((pair)=>pair._1.forall((
2015-03-06 08:51:54 8261
转载 使用PSSH批量SSH操作Linux服务器
http://www.opstool.com/article/266服务器多了,有一个烦恼就是如何批量快速操作一堆服务器。这里我推荐一下经常使用利器pssh。这个工具给我的工作带来了莫大的帮助。简介pssh是一款开源的软件,使用python实现。用于批量ssh操作大批量机器。pssh的项目地址https://code.google.com/p/parallel-ssh/安装在pssh的项目主页找到
2015-03-05 11:07:18 1364
原创 搭建scala开发环境
下载scala 2.11.5安装eclipse LUNA版本安装scala IDE插件:http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site 还可以安装jd-gui,用以反编译生成的class文件,参见http://jd.benow.ca/,或者从如下地址下载:http://download.csdn.net/de
2015-03-04 21:18:27 729
原创 scala学习笔记:理解stream和view
先来个正常的:scala> (0 to 5).map((x:Int)=>{println(x);x*2}).foreach(println)0123450246810再来个stream版的:scala> (0 to 5).toStream.map((x:Int)=>{println(x);x*2}).foreach(println)00122436485
2015-03-01 22:54:20 3043
pdsh-2.26源文件
2017-02-06
oauth2的示例工程源代码spring-security-oauth-samples(含war包)
2016-02-15
java反编译器的GUI版本:jd-gui
2015-02-25
spring-security-oauth2下的sparklr2的war包
2014-10-09
Jena-HBase - A Distributed, Scalable and Efficient RDF Triple Store
2014-08-11
spring-security-oath2自带sample的sparklr的war版
2013-08-26
spring-security-oath2自带sample的tonr的war版
2013-08-26
jsecurity-0.9.0
2008-11-10
FlashNow!动画浏览器
2006-03-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人