caixiaohao007-CSDN博客

原创 HDFS java.io.IOException: Cannot obtain block length for LocatedBlock

原因：文件异常关闭，导致文件无法被读取，一直没有释放租约。由于文件目录下有多个文件，使用命令检查hdfs fsck /flume/logs/tyc_data/2019-09-25正常的文件夹如下：由于文件夹中有多个文件，使用命令查找具体哪个文件出错hadoop fsck /flume/logs/tyc_data/2019-09-25 -openforwrite | egrep -v...

2019-09-27 11:07:09 657

原创 hbase自定义协处理器实现

hbase自定义协处理器实现首先编写代码，集成BaseRegionObserver，在代码中添加输出信息到/opt/apps/hbase_logs/hbase.log，如果协处理器生效，就会输出信息到hbase.log。import org.apache.hadoop.hbase.CoprocessorEnvironment;import org.apache.hadoop.hbase...

2019-08-03 13:09:41 679

原创 spark自定义外部数据源

对于spark外部数据源来说，要先了解这几个类BaseRelation:定义数据的schema信息，把我们的数据转成RDD[Row]RelationProvider:是一个relation的提供者，创建BaseRelationTableScan：读取数据并构建行，拿出所有的数据PrunedScan:列裁剪的PrunedFilteredScan：列裁剪➕过滤InsertableRelat...

2019-08-03 13:06:27 2731

原创 JVM G1

http://youzhixueyuan.com/detailed-explanation-of-jvm-g1.htmlJVM垃圾收集器发展历程第一阶段，Serial（串行）收集器在jdk1.3.1之前，java虚拟机仅仅能使用Serial收集器。 Serial收集器是一个单线程的收集器，但它的“单线程”的意义并不仅仅是说明它只会使用一个CPU或一条收集线程去完成垃圾收集工作，更重要的是...

2019-07-24 11:30:56 441

原创 spark自定义累加器

在spark2.0后，官方提供了一个新的抽象类AccumulaterV2来提供更加友好的自定义类型累加器的实现方式。 abstract class AccumulatorV2[IN, OUT] extends Serializable 实现自定义累加器需要继承AccumulatorV2并重写下面的方法。class MyAccumulator extends AccumulatorV2...

2019-07-19 16:35:42 313

原创 java引用类型

java中有四种引用类型，或者说是引用方式。强引用（String Reference）：即时进行了多次的GC回收，即使JVM的内存真的已经不够用了，即使JVM最终不得已抛出了OOM错误，那么该引用继续抢占；软引用（Soft Reference）：当我们内存空间不足时，可以回收此内存空间。如果内存空间充足，则不回收。可以用其完成一些缓存的处理操作。弱引用（Weak Reference）：...

2019-07-16 10:44:41 173

qq_38007708的博客