曾一航-CSDN博客

原创 ext2.2下载oozie用

下载去吧，不用c币：http://archive.cloudera.com/gplextras/misc/ext-2.2.zip

2018-10-28 23:38:30 582 4

原创 mapReduce 的join

mapreduce join分为两种：1、map的join 2、reduce的join思路：1、map的join是将一个数据集的数据放入Map集合中，将集合在setup放入到缓存中，所以涉及DistributedCache，因为涉及在内存，所以放入缓存的数据集样本要小，否则不适用，所以这个业务场景比较少setup中代码实现如下：（官网有源码）@Override ...

2018-10-08 23:39:21 561

原创对mapReduce性能调优的总结

mapReduce性能调优的着手点有如下几个1、map输出的压缩2、ReduceTask数量的设置3、shuffle数据处理过程中的一些参数分别如下：一、map的输出压缩设定方法有两种1、通过configuration.set(name,value)设置2、通过配置文件mapred-site.xml设置重要参数如下：name1：mapreduce.map.o...

2018-10-07 22:04:18 437

原创自定义MapReduce数据类型的总结

MapReduce中的所有的数据类型要实现Writable接口，以便可以被序列化网络传输和文件储存基本数据类型有8种，看源码发现都实现了WritableComparable接口，此接口继承了Writable，对key进行排序，所以我们在定义key的数据类型时必须要实现WritableComaprable接口。以下分别分为两部分介绍：1、对于key的数据类型自定义 2、对于value的...

2018-10-07 21:36:51 359

原创 Tool接口对MapReduce进行优化

继承Configured，实现Tool，不在run方法中new Configuration，调用run时，用ToolRunner调用package com.kfk.hadoop.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apach...

2018-10-04 19:37:10 404

原创 JAVA API 删除HDFS文件

案例：执行wordcount，若输出目录存在则报错，可先判断目录存在，则删除：public static void main(String[] args){ args = new String[]{ "/user/kfk/data/wc", "/user/kfk/data/output" }; WordCoun...

2018-10-04 14:50:28 988

原创 JAVA API 上传下载文件到HDFS

package com.kfk.hadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.F...

2018-10-04 14:45:05 794

原创 centos vbox镜像

http://vault.centos.org/6.4/isos/x86_64/

2018-09-01 14:21:23 497

原创 structured Streaming与mysql的集成

对于structured Streaming目前版本，没有很好的对mysql等关系型数据库集成的API，所以需要以其它的方式实现博客地址：https://databricks.com/blog/2017/04/04/real-time-end-to-end-integration-with-apache-kafka-in-apache-sparks-structured-streaming.h...

2018-08-27 11:30:25 1401 3

原创 sparkStreaming与kafka集成进行数据处理

集成分为两个版本：http://spark.apache.org/docs/2.2.0/streaming-kafka-integration.html下例是0.8版本的例子：https://github.com/apache/spark/blob/v2.2.0/examples/src/main/scala/org/apache/spark/examples/streaming/Dire...

2018-08-26 19:42:58 248

原创 spark三大弹性分布式数据集比较

三大弹性分布式数据集：RDD，DataFrame，Dataset 为高效处理超大型数据提供便利 RDD优点：1、编译类型安全：编译时就能检查类型错误2、面向对象：直接通过类名.的方式操作数据缺点：1、序列化和反序列化开销大：无论是集群间通信还是IO操作都需对对象的结构和数据进行序列化和反序列化2、GC的性能开销大：频繁的创建和销毁对象，增加GCDataFrame...

2018-08-24 23:23:14 549

原创 hbase与flume集成编程

1、官网下载src包，解压，需要导入的——》flume-ng-sinks——》flume-ng-hbase-sink2、编辑SimpleAsyncHbaseEventSerializer：复制一份重命名为MySimpleAsyncHbaseEventSerializer，修改代码，案例：@Override public List<PutRequest> getAction...

2018-08-19 12:16:02 565 1

原创 Redhat编译Hue 3.9.0

需要的依赖sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel python-devel sqlite-devel openssl-devel mysql-devel g...

2018-08-18 20:29:27 149

原创 scala学习

1、scala选择题100道：https://www.cnblogs.com/steamedbundad/p/scalaExercise.html2、scala练习题：https://blog.csdn.net/World_Programming/article/details/708217823、练习题：https://blog.csdn.net/qq_26786555/article/...

2018-08-16 11:30:51 248

转载 Hbase基本概念

一、简介Hbase是分布式、面向列的开源数据库（其实准确的说是面向列族）。HDFS为Hbase提供可靠的底层数据存储服务，MapReduce为Hbase提供高性能的计算能力，Zookeeper为Hbase提供稳定服务和Failover机制，因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。二、基本特点1、海量储存2、面向列3、极易扩...

2018-08-07 00:16:57 784

原创为什么要学习网络协议？

****************（本文为极客时间app刘超的《趣谈网络协议》学习笔记）《圣经》通天塔故事：上帝为了阻止人类联合，让人类说不同的语言，人类无法沟通，达不成“协议”，通天塔计划失败。互联网世界有统一的语言，所以连接在一起。计算机中输入的文字，计算机能读懂，就是人类与计算机沟通的协议，只有通过这种协议，计算机才能知道我们想要他做什么。协议三要素：1.语法：一段内容符合一定...

2018-08-01 00:58:05 609

曾一航bd