自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 ext2.2下载oozie用

下载去吧,不用c币:http://archive.cloudera.com/gplextras/misc/ext-2.2.zip

2018-10-28 23:38:30 539 4

原创 mapReduce 的join

mapreduce join分为两种:1、map的join     2、reduce的join思路:1、map的join是将一个数据集的数据放入Map集合中,将集合在setup放入到缓存中,所以涉及DistributedCache,因为涉及在内存,所以放入缓存的数据集样本要小,否则不适用,所以这个业务场景比较少setup中代码实现如下:(官网有源码)@Override ...

2018-10-08 23:39:21 557

原创 对mapReduce性能调优的总结

mapReduce性能调优的着手点有如下几个1、map输出的压缩2、ReduceTask数量的设置3、shuffle数据处理过程中的一些参数分别如下:一、map的输出压缩设定方法有两种1、通过configuration.set(name,value)设置2、通过配置文件mapred-site.xml设置重要参数如下:name1:mapreduce.map.o...

2018-10-07 22:04:18 416

原创 自定义MapReduce数据类型的总结

MapReduce中的所有的数据类型要实现Writable接口,以便可以被序列化网络传输和文件储存基本数据类型有8种,看源码发现都实现了WritableComparable接口,此接口继承了Writable,对key进行排序,所以我们在定义key的数据类型时必须要实现WritableComaprable接口。以下分别分为两部分介绍:1、对于key的数据类型自定义    2、对于value的...

2018-10-07 21:36:51 337

原创 Tool接口对MapReduce进行优化

继承Configured,实现Tool,不在run方法中new Configuration,调用run时,用ToolRunner调用package com.kfk.hadoop.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apach...

2018-10-04 19:37:10 400

原创 JAVA API 删除HDFS文件

案例:执行wordcount,若输出目录存在则报错,可先判断目录存在,则删除:public static void main(String[] args){ args = new String[]{ "/user/kfk/data/wc", "/user/kfk/data/output" }; WordCoun...

2018-10-04 14:50:28 984

原创 JAVA API 上传下载文件到HDFS

package com.kfk.hadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.F...

2018-10-04 14:45:05 773

原创 centos vbox镜像

http://vault.centos.org/6.4/isos/x86_64/

2018-09-01 14:21:23 481

原创 structured Streaming与mysql的集成

对于structured Streaming目前版本,没有很好的对mysql等关系型数据库集成的API,所以需要以其它的方式实现博客地址:https://databricks.com/blog/2017/04/04/real-time-end-to-end-integration-with-apache-kafka-in-apache-sparks-structured-streaming.h...

2018-08-27 11:30:25 1372 3

原创 sparkStreaming与kafka集成进行数据处理

集成分为两个版本:http://spark.apache.org/docs/2.2.0/streaming-kafka-integration.html下例是0.8版本的例子:https://github.com/apache/spark/blob/v2.2.0/examples/src/main/scala/org/apache/spark/examples/streaming/Dire...

2018-08-26 19:42:58 232

原创 spark三大弹性分布式数据集比较

三大弹性分布式数据集:RDD,DataFrame,Dataset 为高效处理超大型数据提供便利 RDD优点:1、编译类型安全:编译时就能检查类型错误2、面向对象:直接通过类名.的方式操作数据缺点:1、序列化和反序列化开销大:无论是集群间通信还是IO操作都需对对象的结构和数据进行序列化和反序列化2、GC的性能开销大:频繁的创建和销毁对象,增加GCDataFrame...

2018-08-24 23:23:14 530

原创 hbase与flume集成编程

1、官网下载src包,解压,需要导入的——》flume-ng-sinks——》flume-ng-hbase-sink2、编辑SimpleAsyncHbaseEventSerializer:复制一份重命名为MySimpleAsyncHbaseEventSerializer,修改代码,案例:@Override public List<PutRequest> getAction...

2018-08-19 12:16:02 543 1

原创 Redhat编译Hue 3.9.0

需要的依赖sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc  gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel python-devel sqlite-devel openssl-devel mysql-devel g...

2018-08-18 20:29:27 146

原创 scala学习

1、scala选择题100道:https://www.cnblogs.com/steamedbundad/p/scalaExercise.html2、scala练习题:https://blog.csdn.net/World_Programming/article/details/708217823、练习题:https://blog.csdn.net/qq_26786555/article/...

2018-08-16 11:30:51 240

转载 Hbase基本概念

一、简介Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。二、基本特点1、海量储存2、面向列3、极易扩...

2018-08-07 00:16:57 762

原创 为什么要学习网络协议?

****************(本文为极客时间app刘超的《趣谈网络协议》学习笔记)《圣经》通天塔故事:上帝为了阻止人类联合,让人类说不同的语言,人类无法沟通,达不成“协议”,通天塔计划失败。互联网世界有统一的语言,所以连接在一起。计算机中输入的文字,计算机能读懂,就是人类与计算机沟通的协议,只有通过这种协议,计算机才能知道我们想要他做什么。协议三要素:1.语法:一段内容符合一定...

2018-08-01 00:58:05 603

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除