- 博客(44)
- 资源 (14)
- 收藏
- 关注
转载 HDFS之SequenceFile和MapFile
http://blog.csdn.net/javaman_chen/article/details/7241087Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器,将这些小文件组织起来统一
2014-11-27 22:58:34 1084
原创 收藏2个mongodb connector网址
https://github.com/plaa/mongo-sparkhttps://github.com/mongodb/mongo-hadoophttp://codeforhire.com/2014/02/18/using-spark-with-mongodb/
2014-11-27 22:51:15 1271
转载 Spark:用Scala和Java实现WordCount
http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Java实现WordCount,其中Java实现的JavaWordCount是spar
2014-11-27 22:37:25 96468 3
转载 hadoop mapreduce 优化
http://www.cnblogs.com/c840136/archive/2013/03/10/2952887.html
2014-11-25 09:49:29 949
转载 Pig与Hive的区别
http://myeyeofjava.iteye.com/blog/1601792Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDF
2014-11-25 08:53:34 5101
转载 Hadoop MapReduceV2(Yarn) 框架简介
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/
2014-11-24 22:58:41 1269
转载 Spark技术内幕:Client,Master和Worker 通信源码解析
http://blog.csdn.net/anzhsoft/article/details/30802603
2014-11-24 22:56:58 1632
转载 Spark技术内幕:Stage划分及提交源码分析
http://blog.csdn.net/anzhsoft/article/details/39859463当触发一个RDD的action后,以count为例,调用关系如下:org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGSch
2014-11-24 22:55:19 6624 1
转载 无责任比较thrift vs protocol buffers
http://blog.csdn.net/socoolfj/article/details/3855007最近工作需要保存一些结构化的数据。常规的思路,自然是选择xml。定义一个schema,然后再找个利落点的XML库(觉得tinyxml/tinyxml++就挺不错的)就算问题解决。这两天blog上比较热闹的话题,是从Google放出来的Protocol buffers,一种用来部
2014-11-24 22:02:23 3556
转载 理解hadoop的Map-Reduce数据流(data flow)
http://blog.csdn.net/yclzh0522/article/details/6859778Map-Reduce的处理过程主要涉及以下四个部分:客户端Client:用于提交Map-reduce任务jobJobTracker:协调整个job的运行,其为一个Java进程,其main class为JobTrackerTaskTracker:运行此job的task,
2014-11-24 21:47:26 1769
原创 理解Spark的RDD
RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依赖关系,依赖关系中记录算
2014-11-23 20:57:54 37392 1
原创 spark1.1.0下使用SparkSQL
spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407安装了spark之后,key
2014-11-23 18:14:30 5213
原创 SSH免密码登录设置
我们使用ssh-keygen在ServerA上生成private和public密钥,将生成的public密钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。
2014-11-22 23:34:13 1070
转载 java.util.concurrent 多线程框架
http://daoger.iteye.com/blog/142485JDK5中的一个亮点就是将Doug Lea的并发库引入到Java标准库中。Doug Lea确实是一个牛人,能教书,能出书,能编码,不过这在国外还是比较普遍的,而国内的教授们就相差太远了。 一般的服务器都需要线程池,比如Web、FTP等服务器,不过它们一般都自己实现了线程池,比如以前介绍过的Tomcat、Resin和J
2014-11-22 17:41:32 944
转载 Mongodb集群节点故障恢复场景分析
http://blog.csdn.net/zhangzhaokun/article/details/6299527一个适当配置的Mongodb分片集群是没有单点故障。本文描述了分片集群中存在的几种不同的潜在的节点故障场景,以及Mongodb对这些节点故障是怎么处理的。1、Mongos节点宕机一个Mongos进程应该运行在每一个应用程序服务器上,这个服务器应该独占这个Mongos进程
2014-11-21 22:21:04 1364
转载 Hadoop源代码分析
http://wenku.baidu.com/link?url=R-QoZXhc918qoO0BX6eXI9_uPU75whF62vFFUBIR-7c5XAYUVxDRX5Rs6QZR9hrBnUdMdVHNSHdjYtv7i28lCSng1iuWO620ML_wqJZYFge
2014-11-21 21:41:52 1735
转载 Hadoop基于Protocol Buffer的RPC实现代码分析-Server端
http://yanbohappy.sinaapp.com/?p=110最新版本的Hadoop代码中已经默认了Protocol buffer(以下简称PB,http://code.google.com/p/protobuf/)作为RPC的默认实现,原来的WritableRpcEngine已经被淘汰了。来自cloudera的Aaron T. Myers在邮件中这样说的“since P
2014-11-21 09:17:06 2134
转载 搭建高可用的MongoDB集群
http://www.csdn.net/article/2014-04-09/2819221-build-high-avialable-mongodb-cluster-part-1/1
2014-11-20 15:49:05 4257
转载 Spark与Hadoop计算模型的比较分析
http://tech.it168.com/a2012/0401/1333/000001333287.shtml 最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。 那么Spark和Hadoop有什么不同呢? 1.Spa
2014-11-20 13:32:37 1822
转载 ibatis 到 MyBatis区别
http://blog.csdn.net/techbirds_bao/article/details/9235309
2014-11-19 17:30:11 1451
转载 spring与mybatis三种整合方法
http://blog.csdn.net/bluesky5219/article/details/7066174本文主要介绍Spring与Mybatis三种常用整合方法,需要的整合架包是mybatis-spring.jar,可通过链接http://code.google.com/p/mybatis/下载到。 1、采用数据映射器(MapperFactoryBean)的方式,
2014-11-18 21:59:09 2082
转载 sparkSQL1.1入门
http://blog.csdn.net/book_mmicky/article/details/39288715
2014-11-18 15:47:15 21392 1
转载 MyBatis入门学习
http://blog.csdn.net/huzheaccp/article/details/7399124所需要jar包:mybatis-3.x.x.jar 、如果需要和spring整合,还需要加入相关的包1:看项目目录 红颜色不要关心2:按照步骤:1:加入jar包2:创建数据源(configuration.xml)创建数据库(此处省略)
2014-11-17 10:52:13 1628
转载 MyBatis教程
http://limingnihao.iteye.com/blog/7816711.1MyBatis简介 MyBatis 是一个可以自定义SQL、存储过程和高级映射的持久层框架。MyBatis 摒除了大部分的JDBC代码、手工设置参数和结果集重获。MyBatis 只使用简单的XML 和注解来配置和映射基本数据类型、Map 接口和POJO 到数据库记录。相对Hibe
2014-11-17 10:38:53 26756 9
转载 sql之left join、right join、inner join的区别
http://www.cnblogs.com/pcjim/articles/799302.html
2014-11-17 10:15:18 888
转载 Spring分布式事务实现(适用于spring-tx 2.5)
http://log-cd.iteye.com/blog/807607分布式事务是指操作多个数据库之间的事务,spring的org.springframework.transaction.jta.JtaTransactionManager,提供了分布式事务支持。如果使用WAS的JTA支持,把它的属性改为WebSphere对应的TransactionManager。 在tomcat下
2014-11-16 11:36:29 2239
转载 Java多线程并发
一:java并发的开篇 1、在实际应用中,经常用到线程的并发,那为什么需要用到并发呢,不能独自单独的程序处理吗,那很明确的说,多条线程做完成一件事情和一条线程去完成一件事情,那是无法同言而语的。比如在实际的网站访问过程中,世界各地的人都去同事访问一个网站,在服务器端,如果收到一个请求就对它先处理,而其他用户的请求到达只是对 他们先存储,然后在对他们进行处理,可想而知这样的速度会有多慢,如果
2014-11-13 20:18:10 1338
转载 关于SAP4.7的几个架构图
http://blog.itpub.net/92530/viewspace-154881/1/SAP基本架构图 2、SAP的应用层的工作进程架构图 3、SAP的内存类型图4、SAP数据访问架构图
2014-11-07 09:30:45 3038
pdsh-2.26源文件
2017-02-06
oauth2的示例工程源代码spring-security-oauth-samples(含war包)
2016-02-15
java反编译器的GUI版本:jd-gui
2015-02-25
spring-security-oauth2下的sparklr2的war包
2014-10-09
Jena-HBase - A Distributed, Scalable and Efficient RDF Triple Store
2014-08-11
spring-security-oath2自带sample的sparklr的war版
2013-08-26
spring-security-oath2自带sample的tonr的war版
2013-08-26
jsecurity-0.9.0
2008-11-10
FlashNow!动画浏览器
2006-03-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人