- 博客(103)
- 资源 (31)
- 收藏
- 关注
原创 11.深入理解juc-并发容器-COW类
Bug[HIVE-5631] - Index creation on a skew table fails描述:在倾斜表中创建index失败。[HIVE-5664] - Drop cascade database fails when the db has any tables with indexes描述:删除数据库时,如果该数据库中的表建了索引,会报出表找不到异常。
2015-05-27 13:23:18 2835
原创 10.深入理解juc-并发容器-线程安全queue
Exam SectionsEach candidate receives 50 - 55 live questions. Questions are delivered dynamically and based on difficulty ratings so that each candidate receives an exam at a consistent level. Each
2015-05-27 11:06:41 778
原创 9.深入理解juc-并发容器-concurrentHashMap
CCA–500 and 505 Exam Sections and BlueprintNotes: Hadoop ecosystem items are no longer treated separately as their own section and are integrated throughout the exam. Both CCA–500 and CCA–505 shar
2015-05-27 11:05:34 1337
原创 8.深入理解juc-基于aqs的线程同步工具
1.hmaster在HA的情况下,挂了一台另一台可以立刻顶上。2.hmaster两台全挂的情况下,对读写数据没有任何影响,但是如果此时regionserver也挂了会报错,并且影响读写。3.regionserver只要有一台存在,就可以读写数据。在其他regionserver挂了的时候,活着的regionserver会保证时刻拥有建表时候的region数量来写入数据。4.8核,16G内
2015-05-27 11:01:51 459
原创 7.深入理解juc-锁之synchronized关键字
1.API的变化,比如放弃了客户端几个重要的API:(HTableInterface, HTable,HBaseAdmin),建议程序升级到新的API,老的PAI会在2.X中删除。2.不重启regionserver的情况下读取配置文件。3.master节点也运行regionserver。master与regionserver共享RPC端口。4.global memstore和bl
2015-05-27 10:50:56 2281
原创 impala/hbase功能测试笔记及hbase,hive新特性
1.impala性能测试:创建指定大小的cachehdfs cacheadmin -addPool impala_pool -owner impala -limit 20000000000把表加入cache中alter table ym_impala_with_cache set cached in 'impala_pool';查看表cache状态show table st...
2015-05-27 10:48:36 1701
原创 6.深入理解juc-并发包的基石-AQS及基于AQS的锁实现
常见属性:dn:唯一识别名称 用来表示条目cn:条目的全名sn:姓uid:登录名字,对应etcpasswd下的用户名c:国家代码o:组织名字ou:组织单元名字mail:邮件地址对象定义:MUST表示必须的属性,用$分割MAY表示可有可无SUP:父类为top 结构类规则:1.RDN(dn属性逗号分割最左边的一个属性)必须key=v
2015-05-27 10:43:10 809
原创 5.深入理解juc-原子类实现原理
mapreduce运行的第一步:文件的切分。一、inputsplit类代表传给一个单独mapper任务的数据。inputsplit是一个抽象类,定义了如下方法:getLength:得到每个inputsplit有多少个bytes 。getLocations:获取inputsplit的主机名。public abstract class InputSplit { public a
2015-05-15 14:49:27 1768
原创 4.深入理解juc-volatile原理
转自:(http://os.51cto.com/art/201408/447481.htm)调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。1、cat说明:将路径指定文件的内容输出到stdout。用法:hadoop fs -cat URI [URI …]范例:hadoopf
2015-03-11 10:03:21 393
原创 3.深入理解juc-CAS底层原理
mapper类源代码:public class Mapper { public class Context extends MapContext { public Context(Configuration conf, TaskAttemptID taskid, RecordReader reader,
2014-04-14 09:08:19 2207
原创 10.hadoop源码分析:
http://blog.csdn.net/posa88/article/details/7904720 当我们定义一个Counter时,我们首先要定义一枚举类型:[html]view plaincopyprint?publicstaticenumMY_COUNTER{ CORRUPTED_DATA_COUNTER,...
2014-04-05 16:39:31 658
原创 9.hadoop源码分析:
http://blog.csdn.net/allenlinrui/article/details/6715309下面,我们只涉及MapReduce 1,而不涉及YARN。 当我们在写MapReduce程序的时候,通常,在main函数里,我们会像下面这样做。建立一个Job对象,设置它的JobNa...
2014-04-05 16:38:42 575
原创 8.hadoop源码分析:
|举报|字号订阅前面在讲InputFormat的时候,讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。 这一篇里,开始对Mapper.class的子类进行解读。 先回忆一下。Mapper有setup(),map(),cleanup()和run()四个方法。其中setup()一般是用来进行一些map...
2014-04-05 16:37:56 495
原创 7.hadoop源码分析:上传数据流程分析
http://blog.csdn.net/posa88/article/details/7897963平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如 job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被 读取。所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有...
2014-04-05 16:36:31 612
原创 2.深入理解juc-Fixed线程池
URL回顾:import java.io.FileOutputStream;import java.io.InputStream;import java.io.OutputStream;import java.net.URL;import java.net.URLConnection;public class URITest { public static void ...
2014-04-02 10:45:38 741 1
原创 1.深入理解juc-硬件缓存模型及java内存模型对可见性,有序性,一致性的支持
1.java中如果没有写线程,那么java会启动一个主线程。程序都是通过线程来执行的2.进程与程序:进程是执行中的程序,进程是动态的。程序是静态的,是放在磁盘中的一堆二进制文件。3.实现线程的方式有两种:继承java.lang.Thread,并重写它的run()方法,将线程的执行主体放入其中。例如:计算大于某一规定值的质数的线程可以写成:class PrimeThread ex...
2014-04-01 07:56:09 661
原创 6.hadoop源码分析:HA原理分析
RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,...
2014-03-29 22:59:52 1007
原创 5.hadoop源码分析:分析namenode文件目录树及元数据管理机制
Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce。2)效率,分配速度一定要快。Mapreduce提供的PartitionerMapreduce默认的partitioner是HashPartitione...
2014-03-29 22:42:17 1069
原创 4.hadoop源码分析:datanode的心跳机制
因为一直在做hbase的应用层面的开发,所以体会的比较深的一点是hbase的表结构设计会对系统的性能以及开销上造成很大的区别,本篇文章先按照hbase表中的rowkey、columnfamily、column、timestamp几个方面进行一些分析。最后结合分析如何设计一种适合应用的高效表结构。 1、表的属性 (1)最大版本数:通常是3,如果对于更新比较频繁的应用完全...
2014-03-29 22:40:43 705
原创 job的提交过程源代码分析
job.waitForCompletion(true)开始: waitForCompletion方法如下:public boolean waitForCompletion (boolean verbose ) throws IOException, InterruptedException,
2014-03-17 15:43:21 1177
原创 3.hadoop源码分析:datanode的注册分析
1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、chararry、bytearray复合数据类型:Map、Tuple、Bag ...
2014-03-02 14:10:12 1001
原创 2.hadoop源码分析:datanode的启动
datanode的代码位于hadoop-hdfs-project下的org.apache.hadoop.hdfs.server.datanode包中:首先找到该类,先看其注释,大概意思是:datanode是block存储组件,与namenode通信,也与client端和其他datanode通信datanode管理一系列的block块,允许客户端去读写这些数据块。也会响应namenode对 bl...
2014-03-02 11:02:09 1036
原创 1.hadoop源码分析:namenode的启动
namenode源码位于hadoop-hdfs-project项目的org.apache.hadoop.hdfs.server.namenode包中,首先查看该类注释,描述了namenode的大体功能:* namenode server负责目录名称空间和inode表的管理,namenode中维护两张表:* 1) filename{@literal ->}blocksequence (...
2014-03-01 23:21:11 818
C primer plus编程练习答案 C primer plus答案
2009-12-31
在Linux世界驰骋系列教程 linux电子书
2009-12-26
CISSP学习指南 cissp
2009-12-26
J2EE架构师手册.chm(英文的)
2009-12-26
IPV6详解 tcp ip IPv6、ICMPv6
2009-07-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人