qqpy789-CSDN博客

原创 hadoop源码编译，导入idea中

我的笔记本是deepin15.8系统，其实就是一个ubunt1.首先安装软件sudo apt-get install maven libssl-dev build-essential pkgconf cmake2.安装protobuf下载protbuf 2.5.0https://github.com/protocolbuffers/protobuf/releases?after=...

2019-01-09 15:32:50 3446 1

原创 sqoop 报错之java.lang.InternalError

java.lang.InternalError at sun.security.ec.SunEC.initialize(Native Method) at sun.security.ec.SunEC.access$000(SunEC.java:49) at sun.security.ec.SunEC$1.run(SunEC.java

2017-12-25 15:14:15 1340

原创 spark rdd转dataframe的两种方式

方式1:使用隐式转换 case class Dika(skuId: Int,skudesc:String, listId: Int, listDesc:String) import hiveContext.implicits._ val p = sc.parallelize(Seq(new Dika(1,"miao",1,"shu"))).toDF()

2017-11-01 11:50:49 1102

原创 yarn日常维护之nm健康状态为false

最近发现yarn集群的ui上显示的nodes个数为2个,正常情况下是2个,然后就很无语了,因为以前一直都没有问题然后差问题呗,从ui上显示丢失了206机器的nm,重新启动206上的nm 然后我查看206机器nm的日志和207上的rm的日志从日志上来看没有任何问题,nm显示注册到了207机器,207机器显示收到了206机器的注册,这就无语了,我累个法克然后磨叽了好几个小时,在查看20

2017-10-30 11:31:58 799

原创 hbase 开启缓冲和不开启缓冲比较

hbase 中的put 一个put相当于是一个rpc,如果循环的次数过多则绝大部分时间都消耗在rpc的网路传输过程中而不是用于传输数据的时间占比高如果开启个缓冲一次性提交批量数据则会提高效率得了话就说那么多,直接上代码package com.hit.test;import org.apache.hadoop.conf.Configuration;import org

2017-10-25 16:37:22 518

原创面试杂谈

最近面试了几家公司第一家:可能是嫌我java功底不太厚第二家:三面挂了原因是基础不够扎实数据结构以及jdk源码功力不是特别深厚第三家:直接告诉我和公司业务不符合第四家:嫌弃我没有实时流式的工作经验总结:面试造飞机,工作补轮胎(程序员已经是红海了)

2017-10-19 09:49:55 239

原创 sqoop使用hcatlog生成对应的orc格式的表

最近去面试,面试官提了一句,可以使用hcatlog来实现直接生成对应的parquet格式的表,不过我没有生成成功parquet表但是生成成功了orc表具体的原因还未知不过终于可以直接生成orc格式的表了 orc基本上也够用了sqoop import --connect $URL --username $USERNAME --password $PASSWORD --table erp_

2017-10-14 09:25:10 3608

原创 SortShuffleManager方法头注释

/** * In sort-based shuffle, incoming records are sorted according to their target partition ids, then * written to a single map output file. Reducers fetch contiguous regions of this file in order

2017-10-12 16:16:50 248

原创 RDD五大特性

* - A list of partitions rdd是分片的* - A function for computing each split 每个function是作用在每个split* - A list of dependencies on other RDDs rdd是有互相依赖的* - Optionally, a Partitioner for key-value RDDs

2017-10-12 16:15:44 367

原创 copyonwritelist源码理解

ArrayList 的一个线程安全的变体，其中所有可变操作（add、set 等等）都是通过对底层数组进行一次新的复制来实现的。上面这句话是官方jdk里写的其实就是copyonwritelist是一个安全类每次都是通过复制来实现线程安全打开copyonwritelist的源码 /** The lock protecting all mutators */ final

2017-10-10 16:56:05 1871

原创 hdfs报错之 DisallowedDatanodeException

先看异常堆栈,以前一直没有去看namenode的日志今天已查看发现一个错误看错误的信息应该是无法解析到207机器2017-10-10 09:45:45,124 WARN blockmanagement.DatanodeManager (DatanodeManager.java:registerDatanode(882)) - Unresolved datanode registrati

2017-10-10 09:57:24 1146

原创 hive日常报错之 serious problem serious problem,block 丢失

https://community.hortonworks.com/questions/71589/after-upgrading-to-hdp-253-using-beeline-with-a-si.html报错如下参考链接如上感觉是 orc的文件优化导致的这个错误解决办法是set hive.exec.orc.split.strategy=BI;加上这么一个参数即可

2017-10-09 09:45:33 7566

原创 hadoop之二次排序

package com.hit.ee;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.

2017-09-30 08:51:38 230

原创 mapreduce编程模型之WritableComparator

WritableComparator是一个类这个类是用于mapreduce编程模型中的比较排序 mapreduce中有两次排序一次是在环形缓冲区域之中进行分区排序还有一次是数据在reduce端获取文件之后进行分组现在我讲的是后面那个 //Define the comparator that controls which keys are grouped together

2017-09-29 12:02:31 1073

原创 mapreduce编程模型之partitioner

Partitioner是一个mapreduce的顶级抽象类用于决定map输出的kv键值对如何按照job.setnumberruce(n)中设置的n个数进行分区每个kv落在哪个分区之中以及如何保证相同的key落在同一个分区中只有相同的key落在同一个分区中才能保证这个相同的key可以被同一个reducer处理上代码 public static class MyPartition

2017-09-29 11:53:29 302

原创 jvm参数的配置

1.首先获取活跃占用空间的老年代大小和活跃占用空间的永久代大小.怎么获取呢?(1)首先不用设置参数然后jvm经过几次jvm之后通过jvisualVm中的visual GC插件就能看到或者是通过 gc的日志也能看到活跃占用空间的老年代和永久代的大小2.然后就直接做设置java堆 -Xms和-Xmx3-4倍活跃老年代空间占用量永久代 -xx:permsize1.2~1

2017-09-19 10:47:37 338

原创 java如何定位锁

首先使用jconsole连接上应用点击死锁然后会出现两个线程也就是这两个线程出现了死锁然后再使用jstack进行分析具体是哪一行代码出现死锁jstack -l 18404这个就写的比较明白了线程1 卡在 DeadLock 43行代码而线程 2卡在DeadLock 56行代码最后附上我测试使用的jav

2017-09-19 10:41:50 444

转载 hotspot vm调优资料

简书中的垃圾回收器比较http://www.jianshu.com/p/50d5c88b272d oracle中关于参数的配置http://www.oracle.com/technetwork/articles/java/vmoptions-jsp-140102.html

2017-09-08 17:06:12 220

转载 kylin count distinct需要注意的东西

详情请看这个链接http://lxw1234.com/archives/2016/08/714.htm也可以看官网给的http://kylin.apache.org/blog/2016/08/01/count-distinct-in-kylin/

2017-08-22 14:44:39 870

翻译 kylin raw度量需要注意的东西

大约就是 1.避免数据倾斜2.设置参数3.将大的segment变成小的segment进行操作4.raw度量在cuboid的大小不能超过1M 不然就bufferoverflowexeption 说是说以后会进行优化,然并卵5.raw度量不支持where条件查询链接:http://kylin.apache.org/blog/2016/05/29/raw-measure

2017-08-22 14:43:13 2081

翻译 kylin官方给出的优化以及各个步骤容易出现的问题

1.使用和hive相同的partition cloumn关闭自动合并设置 hive.merge.mapfiles false Disable Hive's auto merge2.重新分布中间表作用:防止不均匀默认是100W一个文件,你可以通过conf/kylin.propertieskylin.job.mapreduce.mapper.input.rows=500000这

2017-08-22 14:41:45 6835

原创 hadoop2.0如何控制map的个数

有些场景,需要我们对map的个数进行控制.比如说:我的集群中的节点多,而且计算复杂,这时候,我需要将整体的并发量提高上去,这时候就需要进行控制map的个数了.如何控制呢?我们先引入一个公式splitsize = Math.max(minSize, Math.min(maxSize, blockSize));这个里面的splitsize就是每个split的大小,我们只要控制这个大小即

2017-06-04 13:29:41 398

转载 kylin的高级优化配置

http://lxw1234.com/archives/2017/04/849.htm就当是mark一下了

2017-05-25 16:37:45 468

原创 hive 优化配置

set hive.cli.print.current.db=true;set hive.exec.mode.local.auto=ture;set hive.cli.print.header=true;set hive.map.aggr=true;set hive.groupby.skewindata=true;set hive.optimize.skewjoin=true;

2017-05-25 16:34:43 249

原创 spark core 数据倾斜时如何处理

数据倾斜原理:做join的时候发现数据都跑到同一个节点上了,这个就是数据倾斜,通过spark的ui界面能发现有些任务shuffle的数据量特别大这时候就可以判定数据倾斜了产生测数据package com.spark.data import java.io.{File, FileOutputStream, FileWriter}import java.ut

2017-05-04 11:03:49 341

原创 spark dagscheduler

/** * The high-level scheduling layer that implements stage-oriented scheduling. It computes a DAG of * stages for each job, keeps track of which RDDs and stage outputs are materialized, and finds

2017-03-20 14:14:05 275

原创 mr的内部实现步骤

2016-11-17 11:04:33 484

原创安装hue失败

安装hue的时候,会出现问题 gmp.h: No such file or directory缺失gmp包yum install gmp gmp-devel gmp-status

2016-10-11 17:33:58 377

原创 json循环依赖导致生成json失败

公司使用jackson进行json串的生成,现在碰上一个问题,hibernate查询出来的数据是有可能出现循环依赖的,使用jackson进行生成json str时候,报循环依赖错误.解决办法有两个1,使用jackson中的注解@JsonIgnore 解释一下 @JsonIgnore 这个的作用相当于解析器遇上这个注解的时候,会进行自动忽略这个属性,也就是中断了循环这样能解决问题,但是

2016-10-08 18:03:58 1486

转载 hbase 优化

HBase设计与开发性能优化(转)本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，这里涉及的不多，这部分可以参考：淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都

2016-09-09 14:50:09 225

转载 hbase 操作干货尤其是删除部分

欢迎转载，请注明来源：http://blog.csdn.net/u010967382/article/details/37878701概述对于建表，和RDBMS类似，HBase也有namespace的概念，可以指定表空间创建表，也可以直接创建表，进入default表空间。对于数据操作，HBase支持四类主要的数据操作，分别是：Put：增加一行，修改一行；

2016-09-09 14:49:07 12572

原创 storm安装

概述172.16.210.190 node1 ----> nimbus ui172.16.210.191 node2 ---->supervisor172.16.210.192 node3 ---->supervisor1.安装zookeeper2.检查依赖需要java7 python2.6.63.修改storm.yaml和storm-env.sh4.按照一定顺序启动

2016-08-18 17:06:18 353

原创初学spark streaming

本来想好好学学hbase的,但是被叫去弄spark streaming了,所以花了点时间学习了spark streaming,下面是笔记和代码spark streaming 是分一个时间段内处理一回,和storm不一样,storm是出现一条记录处理一回代码package com.hit.sparkimport org.apache.spark.SparkConfi

2016-08-17 16:09:11 316

原创 crunch学习一

最近在学习crunch先附上官网文档地址http://crunch.apache.org/user-guide.html首先是学习了一下getstart然后才是user-guide简述一下吧,作为一个笔记1.crunch几个重要的接口PCollection, PTable, and PGroupedTable.Pipeline

2016-08-16 16:22:20 812

原创 scala和java集合互相转换

import collection.JavaConverters._val table: HTable = new HTable(conf, tableName)val deleteList = for (row yield new Delete(Bytes.toBytes(row))table.delete(deleteList.toSeq.asJava)

2016-08-16 16:13:37 1405

原创使用scala操作hbase api

最近在研究hbase 和scala,研究scala是为了spark,刚好hbase的api我也不熟,scala也不熟悉,所以就用来练手了代码是两个类ConfigUtil 是用来产生configuration的TestHbaeJavaApi是用来测试hbase api的jar包是用的cdh5.7.1的版本package com.hit.hrbimport org.

2016-08-16 16:11:26 9969

原创 maven 仓库地址国内

开源中国的maven仓库不能用了，找到一个备用的 repo2 central Human Readable Name for this Mirror. http://repo2.maven.org/maven2/ 记录一下

2016-07-30 22:40:12 292

原创 linux 系统 eclipse提交job到hadoop集群上的一些坑

自从学习hadoop开始，一直就想找到一个办法，能提交一个job到hadoop集群上，而不是export jar包，然后在hadoop集群上执行命令 hadoop jar今天算是被我找到了，顺带还发现一个local模式先上hadoop的经典的wordcount代码，这个代码是从官网上摘来的package com.hit.hadoop;import java.io.IOExcepti

2016-07-27 15:31:59 1226

原创线程池等待一定数目的线程执行完毕之后返回结果

线程池

2016-07-13 13:42:10 4369

原创 win7开发hadoop的一些问题

windows下开发mr程序,经常会出现一些乱七八糟的问题1.身份问题,UserGroupInformation中会处理身份问题.而且取的是系统当前登录用户,也就是你win7的用户,以这个身份进入hadoop集群.会导致hadoop拒绝执行任务解决办法:(1).在win7的环境变量中添加HADOOP_USER_NAME=hadoop HADOOP_PROXY_USER=hadoop

2016-06-22 11:27:20 283

空空如也

空空如也