2014年11月_白乔

12月 11月 10月 09月 08月 07月 06月 05月 03月

转载 HDFS之SequenceFile和MapFile

http://blog.csdn.net/javaman_chen/article/details/7241087Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的，在小文件的处理上不但效率低下，而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器，将这些小文件组织起来统一

2014-11-27 22:58:34 1084

原创收藏2个mongodb connector网址

https://github.com/plaa/mongo-sparkhttps://github.com/mongodb/mongo-hadoophttp://codeforhire.com/2014/02/18/using-spark-with-mongodb/

2014-11-27 22:51:15 1271

转载 Spark：用Scala和Java实现WordCount

http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写scala，今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀，学会之后，用起来很顺手。关于如何搭建scala和IDEA开发环境，请看文末的参考资料。用Scala和Java实现WordCount，其中Java实现的JavaWordCount是spar

2014-11-27 22:37:25 96468 3

转载理解Java的引用对象

http://blog.sina.com.cn/s/blog_8417aea80100skwx.html

2014-11-25 16:31:18 2117

转载 hadoop mapreduce 优化

http://www.cnblogs.com/c840136/archive/2013/03/10/2952887.html

2014-11-25 09:49:29 949

转载 Pig与Hive的区别

http://myeyeofjava.iteye.com/blog/1601792Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDF

2014-11-25 08:53:34 5101

转载 Hadoop MapReduceV2(Yarn) 框架简介

http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

2014-11-24 22:58:41 1269

转载 Spark技术内幕：Client，Master和Worker 通信源码解析

http://blog.csdn.net/anzhsoft/article/details/30802603

2014-11-24 22:56:58 1632

转载 Spark技术内幕：Stage划分及提交源码分析

http://blog.csdn.net/anzhsoft/article/details/39859463当触发一个RDD的action后，以count为例，调用关系如下：org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGSch

2014-11-24 22:55:19 6624 1

转载无责任比较thrift vs protocol buffers

http://blog.csdn.net/socoolfj/article/details/3855007最近工作需要保存一些结构化的数据。常规的思路，自然是选择xml。定义一个schema，然后再找个利落点的XML库(觉得tinyxml/tinyxml++就挺不错的)就算问题解决。这两天blog上比较热闹的话题，是从Google放出来的Protocol buffers，一种用来部

2014-11-24 22:02:23 3556

转载理解hadoop的Map-Reduce数据流(data flow)

http://blog.csdn.net/yclzh0522/article/details/6859778Map-Reduce的处理过程主要涉及以下四个部分：客户端Client：用于提交Map-reduce任务jobJobTracker：协调整个job的运行，其为一个Java进程，其main class为JobTrackerTaskTracker：运行此job的task，

2014-11-24 21:47:26 1769

原创 hadoop-2.5安装与配置

安装之前准备4台机器：bluejoe0,

2014-11-24 15:54:07 5512 1

原创 linux下查看本地程序占用的端口

netstat -apn结合ps

2014-11-24 15:33:36 1339

原创理解Spark的RDD

RDD（Resilient Distributed Datasets）弹性分布式数据集，是在集群应用中分享数据的一种高效，通用，容错的抽象，是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。RDD是只读的，不可变的数据集。RDD也是容错的，假如其中一个RDD坏掉，RDD中有记录之前的依赖关系，依赖关系中记录算

2014-11-23 20:57:54 37392 1

原创 spark1.1.0下使用SparkSQL

spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407安装了spark之后，key

2014-11-23 18:14:30 5213

转载 hadoop的mapreduce过程

http://www.cnblogs.com/sharpxiajun/p/3151395.html

2014-11-23 15:14:08 1163

原创 SSH免密码登录设置

我们使用ssh-keygen在ServerA上生成private和public密钥，将生成的public密钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。

2014-11-22 23:34:13 1070

原创最新版spark1.1.0集群安装配置

和分布式文件系统和NoSQL数据库相比而言，spark集群的安装配置还算是比较简单的

2014-11-22 23:01:16 4519 1

转载同步/异步与阻塞/非阻塞的区别

http://blog.csdn.net/msda/article/details/5766917

2014-11-22 17:45:16 1090 1

转载 java.util.concurrent 多线程框架

http://daoger.iteye.com/blog/142485JDK5中的一个亮点就是将Doug Lea的并发库引入到Java标准库中。Doug Lea确实是一个牛人，能教书，能出书，能编码，不过这在国外还是比较普遍的，而国内的教授们就相差太远了。一般的服务器都需要线程池，比如Web、FTP等服务器，不过它们一般都自己实现了线程池，比如以前介绍过的Tomcat、Resin和J

2014-11-22 17:41:32 944

转载 java线程安全总结

http://blog.csdn.net/haolongabc/article/details/7249098

2014-11-22 11:11:33 977

转载 Mongodb集群节点故障恢复场景分析

http://blog.csdn.net/zhangzhaokun/article/details/6299527一个适当配置的Mongodb分片集群是没有单点故障。本文描述了分片集群中存在的几种不同的潜在的节点故障场景，以及Mongodb对这些节点故障是怎么处理的。1、Mongos节点宕机一个Mongos进程应该运行在每一个应用程序服务器上，这个服务器应该独占这个Mongos进程

2014-11-21 22:21:04 1364

转载 Hadoop源代码分析

http://wenku.baidu.com/link?url=R-QoZXhc918qoO0BX6eXI9_uPU75whF62vFFUBIR-7c5XAYUVxDRX5Rs6QZR9hrBnUdMdVHNSHdjYtv7i28lCSng1iuWO620ML_wqJZYFge

2014-11-21 21:41:52 1735

转载 Hadoop基于Protocol Buffer的RPC实现代码分析-Server端

http://yanbohappy.sinaapp.com/?p=110最新版本的Hadoop代码中已经默认了Protocol buffer（以下简称PB，http://code.google.com/p/protobuf/）作为RPC的默认实现，原来的WritableRpcEngine已经被淘汰了。来自cloudera的Aaron T. Myers在邮件中这样说的“since P

2014-11-21 09:17:06 2134

原创搭建mongodb集群（副本集+分片）

白乔原创：副本集+分片集群搭建的完整实例体验副本集的实时备份和故障恢复特性体验分片存储特性

2014-11-20 22:49:41 18020 5

转载搭建高可用的MongoDB集群

http://www.csdn.net/article/2014-04-09/2819221-build-high-avialable-mongodb-cluster-part-1/1

2014-11-20 15:49:05 4257

转载 Spark与Hadoop计算模型的比较分析

http://tech.it168.com/a2012/0401/1333/000001333287.shtml　　最近很多人都在讨论Spark这个貌似通用的分布式计算模型，国内很多机器学习相关工作者都在研究和使用它。　　Spark是一个通用的并行计算框架，由UCBerkeley的AMP实验室开发。　　那么Spark和Hadoop有什么不同呢?　　1.Spa

2014-11-20 13:32:37 1822

转载 ibatis 到 MyBatis区别

http://blog.csdn.net/techbirds_bao/article/details/9235309

2014-11-19 17:30:11 1451

转载 spring与mybatis三种整合方法

http://blog.csdn.net/bluesky5219/article/details/7066174本文主要介绍Spring与Mybatis三种常用整合方法，需要的整合架包是mybatis-spring.jar，可通过链接http://code.google.com/p/mybatis/下载到。 1、采用数据映射器（MapperFactoryBean）的方式，

2014-11-18 21:59:09 2082

转载 sparkSQL1.1入门

http://blog.csdn.net/book_mmicky/article/details/39288715

2014-11-18 15:47:15 21392 1

转载 MyBatis入门学习

http://blog.csdn.net/huzheaccp/article/details/7399124所需要jar包：mybatis-3.x.x.jar 、如果需要和spring整合，还需要加入相关的包1：看项目目录红颜色不要关心2：按照步骤：1：加入jar包2：创建数据源（configuration.xml）创建数据库（此处省略）

2014-11-17 10:52:13 1628

转载 MyBatis教程

http://limingnihao.iteye.com/blog/7816711.1MyBatis简介 MyBatis 是一个可以自定义SQL、存储过程和高级映射的持久层框架。MyBatis 摒除了大部分的JDBC代码、手工设置参数和结果集重获。MyBatis 只使用简单的XML 和注解来配置和映射基本数据类型、Map 接口和POJO 到数据库记录。相对Hibe

2014-11-17 10:38:53 26756 9

转载 sql之left join、right join、inner join的区别

http://www.cnblogs.com/pcjim/articles/799302.html

2014-11-17 10:15:18 888

转载 MySQL引擎

http://www.cnblogs.com/sopc-mc/archive/2011/11/01/2232212.html

2014-11-16 20:42:54 793

转载分布式事务处理：原理、不足

http://blog.csdn.net/wdwbw/article/details/4179745

2014-11-16 11:39:38 1470

转载 Spring分布式事务实现（适用于spring-tx 2.5）

http://log-cd.iteye.com/blog/807607分布式事务是指操作多个数据库之间的事务，spring的org.springframework.transaction.jta.JtaTransactionManager，提供了分布式事务支持。如果使用WAS的JTA支持，把它的属性改为WebSphere对应的TransactionManager。在tomcat下

2014-11-16 11:36:29 2239

转载 Java事务处理总结

http://lavasoft.blog.51cto.com/62575/53815/

2014-11-15 09:34:05 703

转载 Java多线程并发

一：java并发的开篇 1、在实际应用中，经常用到线程的并发，那为什么需要用到并发呢，不能独自单独的程序处理吗，那很明确的说，多条线程做完成一件事情和一条线程去完成一件事情，那是无法同言而语的。比如在实际的网站访问过程中，世界各地的人都去同事访问一个网站，在服务器端，如果收到一个请求就对它先处理，而其他用户的请求到达只是对他们先存储，然后在对他们进行处理，可想而知这样的速度会有多慢，如果

2014-11-13 20:18:10 1338

原创 spring配置文件中如何表达属性值中的美元符？

使用如下方式：#{'$'}

2014-11-10 16:01:11 1463

转载关于SAP4.7的几个架构图

http://blog.itpub.net/92530/viewspace-154881/1/SAP基本架构图 2、SAP的应用层的工作进程架构图 3、SAP的内存类型图4、SAP数据访问架构图

2014-11-07 09:30:45 3038

pdsh-2.26源文件

pdsh的全称是parallel distributed shell，与pssh类似，pdsh可并行执行对远程目标主机的操作，在有批量执行命令或分发任务的运维需求时，使用这个命令可达到事半功倍的效果。同时，pdsh还支持交互模式，当要执行的命令不确定时，可直接进入pdsh命令行，非常方便。

2017-02-06

oauth2的示例工程源代码spring-security-oauth-samples（含war包）

oauth2的示例工程源代码，含build好的war包来源于github，但build会很耗时间直接取出2个target目录下的war文件改名为tonr2.war和sparklr2.war 置于webapps下启动tomcat后，访问http://localhost:8080/tonr2 即可体验演示工程

2016-02-15

java反编译器的GUI版本：jd-gui

很好的java反编译器，忘掉eclipse插件吧：）本人的eclipse无论安装哪种java反编译器，总是失败~~~ 绝望中找到jd-gui jd-gui可以关联上eclipse中的.class文件并自动在左侧的目录视图中打开class文件所在的目录同时支持各个class之间的跳转 http://jd.benow.ca/

2015-02-25