自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 hadoop源码编译,导入idea中

我的笔记本是deepin15.8系统,其实就是一个ubunt1.首先安装软件sudo apt-get install maven libssl-dev build-essential pkgconf cmake2.安装protobuf下载protbuf 2.5.0https://github.com/protocolbuffers/protobuf/releases?after=...

2019-01-09 15:32:50 3446 1

原创 sqoop 报错之java.lang.InternalError

java.lang.InternalError        at sun.security.ec.SunEC.initialize(Native Method)        at sun.security.ec.SunEC.access$000(SunEC.java:49)        at sun.security.ec.SunEC$1.run(SunEC.java

2017-12-25 15:14:15 1340

原创 spark rdd转dataframe的两种方式

方式1:使用隐式转换 case class Dika(skuId: Int,skudesc:String, listId: Int, listDesc:String) import hiveContext.implicits._    val p = sc.parallelize(Seq(new Dika(1,"miao",1,"shu"))).toDF()

2017-11-01 11:50:49 1102

原创 yarn日常维护之nm健康状态为false

最近发现yarn集群的ui上显示的nodes个数为2个,正常情况下是2个,然后就很无语了,因为以前一直都没有问题然后差问题呗,从ui上显示丢失了206机器的nm,重新启动206上的nm 然后我查看206机器nm的日志和207上的rm的日志 从日志上来看 没有任何问题,nm显示注册到了207机器,207机器显示收到了206机器的注册,这就无语了,我累个法克然后磨叽了好几个小时,在查看20

2017-10-30 11:31:58 799

原创 hbase 开启缓冲和不开启缓冲 比较

hbase 中的put 一个put相当于是一个rpc,如果循环的次数过多 则绝大部分时间都消耗在rpc的网路传输过程中 而不是用于传输数据的时间占比高如果开启个缓冲 一次性提交批量数据 则会提高效率得了 话就说那么多,直接上代码package com.hit.test;import org.apache.hadoop.conf.Configuration;import org

2017-10-25 16:37:22 518

原创 面试杂谈

最近面试了几家公司第一家:可能是嫌我java功底不太厚第二家:三面挂了 原因是 基础不够扎实 数据结构 以及jdk源码功力不是特别深厚第三家:直接告诉我和公司业务不符合第四家:嫌弃我没有实时流式的工作经验总结:面试造飞机,工作补轮胎(程序员已经是红海了)

2017-10-19 09:49:55 239

原创 sqoop使用hcatlog生成对应的orc格式的表

最近去面试,面试官提了一句,可以使用hcatlog来实现直接生成对应的parquet格式的表,不过我没有生成成功parquet表 但是生成成功了orc表 具体的原因还未知不过终于可以直接生成orc格式的表了 orc基本上也够用了sqoop import --connect $URL --username $USERNAME --password $PASSWORD --table erp_

2017-10-14 09:25:10 3608

原创 SortShuffleManager方法头注释

/** * In sort-based shuffle, incoming records are sorted according to their target partition ids, then * written to a single map output file. Reducers fetch contiguous regions of this file in order

2017-10-12 16:16:50 248

原创 RDD五大特性

* - A list of partitions rdd是分片的* - A function for computing each split 每个function是作用在每个split* - A list of dependencies on other RDDs rdd是有互相依赖的* - Optionally, a Partitioner for key-value RDDs

2017-10-12 16:15:44 367

原创 copyonwritelist源码理解

ArrayList 的一个线程安全的变体,其中所有可变操作(add、set 等等)都是通过对底层数组进行一次新的复制来实现的。上面这句话是官方jdk里写的 其实就是copyonwritelist是一个安全类 每次都是通过复制来实现线程安全打开copyonwritelist的源码 /** The lock protecting all mutators */ final

2017-10-10 16:56:05 1871

原创 hdfs报错之 DisallowedDatanodeException

先看异常堆栈,以前一直没有去看namenode的日志 今天已查看 发现一个错误 看错误的信息应该是无法解析到207机器2017-10-10 09:45:45,124 WARN blockmanagement.DatanodeManager (DatanodeManager.java:registerDatanode(882)) - Unresolved datanode registrati

2017-10-10 09:57:24 1146

原创 hive日常报错之 serious problem serious problem,block 丢失

https://community.hortonworks.com/questions/71589/after-upgrading-to-hdp-253-using-beeline-with-a-si.html报错如下 参考链接如上 感觉是 orc的文件优化导致的这个错误 解决办法是set hive.exec.orc.split.strategy=BI;加上这么一个参数即可

2017-10-09 09:45:33 7566

原创 hadoop之二次排序

package com.hit.ee;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.

2017-09-30 08:51:38 230

原创 mapreduce编程模型之WritableComparator

WritableComparator是一个类 这个类是用于mapreduce编程模型中的比较 排序 mapreduce中有两次排序 一次是 在环形缓冲区域之中进行分区 排序还有一次是数据在reduce端获取文件之后进行分组现在我讲的是后面那个 //Define the comparator that controls which keys are grouped together

2017-09-29 12:02:31 1073

原创 mapreduce编程模型之partitioner

Partitioner是一个mapreduce的顶级抽象类 用于决定map输出的kv键值对 如何按照job.setnumberruce(n)中设置的n个数进行分区 每个kv落在哪个分区之中 以及如何保证相同的key落在同一个分区中 只有相同的key落在同一个分区中 才能保证 这个相同的key可以被同一个reducer处理上代码 public static class MyPartition

2017-09-29 11:53:29 302

原创 jvm参数的配置

1.首先获取活跃占用空间的老年代大小 和活跃占用空间的永久代大小.怎么获取呢?(1)首先不用设置参数 然后jvm经过几次jvm之后 通过jvisualVm中的visual GC插件就能看到 或者是通过 gc的日志也能看到活跃占用空间的老年代和永久代的大小2.然后就直接做设置java堆 -Xms和-Xmx3-4倍活跃老年代空间占用量永久代  -xx:permsize1.2~1

2017-09-19 10:47:37 338

原创 java如何定位锁

首先使用jconsole连接上应用点击死锁 然后会出现两个线程也就是这两个线程出现了死锁然后再使用jstack进行分析具体是哪一行代码出现死锁jstack -l 18404这个就写的比较明白了 线程1 卡在 DeadLock 43行代码 而 线程 2卡在DeadLock 56行代码最后附上我测试使用的jav

2017-09-19 10:41:50 444

转载 hotspot vm调优 资料

简书 中的垃圾回收器比较http://www.jianshu.com/p/50d5c88b272d oracle中关于参数的配置http://www.oracle.com/technetwork/articles/java/vmoptions-jsp-140102.html

2017-09-08 17:06:12 220

转载 kylin count distinct需要注意的东西

详情请看这个链接http://lxw1234.com/archives/2016/08/714.htm也可以看官网给的http://kylin.apache.org/blog/2016/08/01/count-distinct-in-kylin/

2017-08-22 14:44:39 870

翻译 kylin raw度量 需要注意的东西

大约就是 1.避免数据倾斜2.设置参数3.将大的segment变成小的segment进行操作4.raw度量 在cuboid的大小不能超过1M 不然就bufferoverflowexeption 说是说以后会进行优化,然并卵5.raw度量不支持where条件查询链接:http://kylin.apache.org/blog/2016/05/29/raw-measure

2017-08-22 14:43:13 2081

翻译 kylin官方给出的优化 以及各个步骤容易出现的问题

1.使用和hive相同的partition cloumn关闭自动合并设置 hive.merge.mapfiles false Disable Hive's auto merge2.重新分布中间表作用:防止不均匀默认是100W一个文件,你可以通过conf/kylin.propertieskylin.job.mapreduce.mapper.input.rows=500000这

2017-08-22 14:41:45 6835

原创 hadoop2.0如何控制map的个数

有些场景,需要我们对map的个数进行控制.比如说:我的集群中的节点多,而且计算复杂,这时候,我需要将整体的并发量提高上去,这时候就需要进行控制map的个数了.如何控制呢?我们先引入一个公式splitsize = Math.max(minSize, Math.min(maxSize, blockSize));这个里面的splitsize就是每个split的大小,我们只要控制这个大小即

2017-06-04 13:29:41 398

转载 kylin的高级优化配置

http://lxw1234.com/archives/2017/04/849.htm就当是mark一下了

2017-05-25 16:37:45 468

原创 hive 优化配置

set hive.cli.print.current.db=true;set hive.exec.mode.local.auto=ture;set hive.cli.print.header=true;set hive.map.aggr=true;set hive.groupby.skewindata=true;set hive.optimize.skewjoin=true;

2017-05-25 16:34:43 249

原创 spark core 数据倾斜时如何处理

数据倾斜原理:做join的时候 发现数据都跑到同一个节点上了,这个就是数据倾斜,通过spark的ui界面能发现有些任务shuffle的数据量特别大这时候就可以判定数据倾斜了 产生测数据package com.spark.data import java.io.{File, FileOutputStream, FileWriter}import java.ut

2017-05-04 11:03:49 341

原创 spark dagscheduler

/** * The high-level scheduling layer that implements stage-oriented scheduling. It computes a DAG of * stages for each job, keeps track of which RDDs and stage outputs are materialized, and finds

2017-03-20 14:14:05 275

原创 mr的内部实现步骤

2016-11-17 11:04:33 484

原创 安装hue失败

安装hue的时候,会出现问题 gmp.h: No such file or directory缺失gmp包yum install gmp gmp-devel gmp-status

2016-10-11 17:33:58 377

原创 json循环依赖导致生成json失败

公司使用jackson进行json串的生成,现在碰上一个问题,hibernate查询出来的数据是有可能出现循环依赖的,使用jackson进行生成json str时候,报循环依赖错误.解决办法有两个1,使用jackson中的注解@JsonIgnore  解释一下 @JsonIgnore 这个的作用相当于解析器遇上这个注解的时候,会进行自动忽略这个属性,也就是中断了循环这样能解决问题,但是

2016-10-08 18:03:58 1486

转载 hbase 优化

HBase设计与开发性能优化(转)本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都

2016-09-09 14:50:09 225

转载 hbase 操作 干货 尤其是删除部分

欢迎转载,请注明来源:http://blog.csdn.net/u010967382/article/details/37878701概述对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,也可以直接创建表,进入default表空间。对于数据操作,HBase支持四类主要的数据操作,分别是:Put:增加一行,修改一行;

2016-09-09 14:49:07 12572

原创 storm安装

概述172.16.210.190 node1 ----> nimbus ui172.16.210.191 node2 ---->supervisor172.16.210.192 node3 ---->supervisor1.安装zookeeper2.检查依赖 需要java7 python2.6.63.修改storm.yaml和storm-env.sh4.按照一定顺序启动

2016-08-18 17:06:18 353

原创 初学spark streaming

本来想好好学学hbase的,但是被叫去弄spark streaming了,所以花了点时间学习了spark streaming,下面是笔记和代码spark streaming 是分一个时间段内处理一回,和storm不一样,storm是出现一条记录处理一回代码package com.hit.sparkimport org.apache.spark.SparkConfi

2016-08-17 16:09:11 316

原创 crunch学习一

最近在学习crunch先附上官网文档地址http://crunch.apache.org/user-guide.html首先是学习了一下getstart然后才是user-guide简述一下吧,作为一个笔记1.crunch几个重要的接口PCollection, PTable, and PGroupedTable.Pipeline

2016-08-16 16:22:20 812

原创 scala和java集合互相转换

import collection.JavaConverters._val table: HTable = new HTable(conf, tableName)val deleteList = for (row yield new Delete(Bytes.toBytes(row))table.delete(deleteList.toSeq.asJava)

2016-08-16 16:13:37 1405

原创 使用scala操作hbase api

最近在研究hbase 和scala,研究scala是为了spark,刚好hbase的api我也不熟,scala也不熟悉,所以就用来练手了代码是两个类ConfigUtil 是用来产生configuration的TestHbaeJavaApi是用来测试hbase api的jar包是用的cdh5.7.1的版本package com.hit.hrbimport org.

2016-08-16 16:11:26 9969

原创 maven 仓库地址 国内

开源中国的maven仓库不能用了,找到一个备用的        repo2        central        Human Readable Name for this Mirror.        http://repo2.maven.org/maven2/   记录一下

2016-07-30 22:40:12 292

原创 linux 系统 eclipse提交job到hadoop集群上的一些坑

自从学习hadoop开始,一直就想找到一个办法,能提交一个job到hadoop集群上,而不是export jar包,然后在hadoop集群上执行命令 hadoop jar今天算是被我找到了,顺带还发现一个local模式先上hadoop的经典的wordcount代码,这个代码是从官网上摘来的package com.hit.hadoop;import java.io.IOExcepti

2016-07-27 15:31:59 1226

原创 线程池等待一定数目的线程执行完毕之后返回结果

线程池

2016-07-13 13:42:10 4369

原创 win7开发hadoop的一些问题

windows下开发mr程序,经常会出现一些乱七八糟的问题1.身份问题,UserGroupInformation中会处理身份问题.而且取的是系统当前登录用户,也就是你win7的用户,以这个身份进入hadoop集群.会导致hadoop拒绝执行任务解决办法:(1).在win7的环境变量中添加HADOOP_USER_NAME=hadoop HADOOP_PROXY_USER=hadoop

2016-06-22 11:27:20 283

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除