自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

dabokele的博客

dabokele的博客

  • 博客(87)
  • 资源 (1)
  • 收藏
  • 关注

原创 Azkaban-2.5及Plugins的安装配置

Azkaban-2.5.0及插件安装配置

2016-08-17 23:00:42 10232 4

原创 Hadoop2动态调整Log级别-以datanode的heartbeat log为例

调整hadoop2中datanode进程的日志级别

2016-08-17 18:09:43 3435

原创 Kafka系列之-自定义Producer

Kafka自定义Producer以及Partitioner,并对Producer进行一定的封装。

2016-08-15 23:37:49 23530 1

原创 Kafka系列之-Kafka入门

Apache Kafka基本架构和原理。

2016-08-15 21:27:23 1346

原创 Spark Scheduler模块源码分析之TaskScheduler和SchedulerBackend

本文是Scheduler模块源码分析的第二篇,第一篇Spark Scheduler模块源码分析之DAGScheduler主要分析了DAGScheduler。本文接下来结合Spark-1.6.0的源码继续分析TaskScheduler和SchedulerBackend。

2016-07-17 13:59:15 8274 3

原创 Spark Scheduler模块源码分析之DAGScheduler

本文主要结合Spark-1.6.0的源码,对Spark中任务调度模块的执行过程进行分析,分析了Scheduler模块中DAGScheduler的作用,构成,以及Stage划分和Stage最终的提交过程。

2016-07-13 23:47:28 13929 10

翻译 Sqoop-1.4.5用户手册

本文以Sqoop User Guide (v1.4.5)为主,对Sqoop-1.4.5的用户手册进行翻译,同时会结合一些实际操作中的注意事项一并写入。由于原文档很长,本文首先会以实际使用到的部分为主,逐步进行完善。 1、Introduction  Sqoop是一个用于在Hadoop和关系型数据库之间流转数据的一个工具。可以使用Sqoop将数据从关系型数据库系统(RDBMS)比如MySQL或者Orac

2016-07-09 21:08:11 10548

原创 Spark UI界面原理

本文以Spark-1.6.0源码为基础,分析了Spark UI界面的框架构成,及页面数据展示方法。

2016-07-06 23:21:51 21595

原创 Spark-1.6.0之Application运行信息记录器JobProgressListener

JobProgressListener类是Spark的ListenerBus中一个很重要的监听器,可以用于记录Spark任务的Job和Stage等信息,比如在Spark UI页面上Job和Stage运行状况以及运行进度的显示等数据,就是从JobProgressListener中获得的。本文主要分析了JobProgressListener的结构,以及数据生产和消费的过程。

2016-07-05 23:42:21 5856

原创 Hive-ORC文件存储格式(续)

本文在Hive-ORC文件存储格式的理论基础上,进一步分析一个实际的Hive ORC表中的数据存储形式。

2016-07-02 23:35:36 10623 1

原创 ELK平台的搭建

本文主要介绍了日志分析ELK集群的搭建过程

2016-06-26 23:05:36 21616 1

原创 Hadoop-2.X HA模式下的FSImage和EditsLog合并过程

Hadoop-2.X中HA模式下FSImage和EditsLog的checkpoint操作过程分析

2016-06-15 23:57:11 7177 3

原创 hive元数据库表分析及操作

本文分析hive的元数据作用、配置,元数据库表结构、功能以及对元数据的直接查询

2016-06-12 22:59:57 19798

原创 Hive-RCFile文件存储格式

RCFile的文件存储格式,可以和ORC格式进行对比

2016-06-03 23:14:20 3788

原创 Hive-ORC文件存储格式

本文分析Hive中ORC文件存储格式的原理和实际案例

2016-05-31 00:18:15 20397

原创 Spark调度模式-FIFO和FAIR

Spark中的调度模式主要有两种:FIFO和FAIR。使用哪种调度器由参数spark.scheduler.mode来设置,默认为FIFO

2016-05-28 18:12:10 25500 6

原创 Spark-1.6.0中的Sort Based Shuffle源码解读

Spark-1.6.0源码中默认的Sort Based Shuffle, Shuffle Write和Shuffle Read过程分析。

2016-05-25 23:22:40 9902 1

原创 Spark内存管理-UnifiedMemoryManager和StaticMemoryManager

在Spark-1.6.0中,引入了一个新的参数spark.memory.userLegacyMode(默认值为false),表示不使用Spark-1.6.0之前的内存管理机制,而是使用1.6.0中引入的动态内存分配这一概念。  从SparkEnv.scala的源码中可以看到,该参数设置为true或false,主要影响到构造memoryManager的类的不同:val useLegacyMemoryM

2016-05-22 16:01:54 12278 8

原创 Win7 Eclipse Hadoop2.4插件配置

准备工作: 1、下载hadoop2x-eclipse-plugin-master.zip Github地址:https://github.com/winghc/hadoop2x-eclipse-plugin 百度网盘地址:http://www.pan1234.com/result.jsp?wp=0&op=0&ty=gn&q=hadoop

2015-11-05 20:53:10 972

原创 K-均值聚类算法(K-means)

K-means是一种无监督的学习,将相似的对象归到同一个簇中.可以将一批数据分为K个不同的簇,并且每个簇的中心采用簇中所含样本的均值计算而成.    K-means算法的K值需要由用户指定,算法开始时随机选择K个初始点作为质心,然后将数据集中的每个点分配到一个簇中.那么,如何确定某一组数据归于哪个簇中呢?这是通过计算这一组数据与K个质心的距离来实现的,这组数据离哪个质心最近,就将其归于哪个

2015-09-25 16:55:21 3353

原创 Linux命令行快捷键

1,ctrl + a     跳至第一个字母,相当于home2,ctrl + e     跳至最后一个字母,相当于end3,ctrl + u     删除此处至最前面所有字符4,ctrl + k     删除此处至末尾所有字符5,ctrl + w     删除此处至左边单词(即到左边第一个空格为止)6,ctrl + d     删除当前选中字符7,c

2015-09-24 10:42:21 909

原创 Spark程序开发-环境搭建-程序编写-Debug调试-项目提交

1,使用IDEA软件进行开发.在idea中新建scala project, File-->New-->Project.选择Scala-->Scala2,在编辑窗口中完成WordCount程序的编写,完整程序如下:object WordCount { def main(args: Array[String]) { val conf = new Spark

2015-09-24 10:33:16 1785

原创 IDEA中运行KafkaWordCount程序

1,从spark的example中找到KafkaWordCount.scala文件复制到idea编辑器中,引入包:2,编辑configuration,    (1)KafkaWordCountProducer    选择KafkaWordCount.scala中的KafkaWordCountProducer方法    VM options 设置为:-Ds

2015-09-24 10:31:49 2936 2

翻译 分析比较KafkaWordCount及DierctKafkaWordCount

参考spark官方文档,Spark Streaming + Kafka Integration Guide,其中提到Spark Streaming如何从Kafka中接收数据.主要有两种方法,一种是使用Receivers的旧方法,另一种是不使用Receivers的新方法(从Spark 1.3才开始引入)1,Approach 1: Receiver-based Approach(基于Rec

2015-09-24 10:31:03 1570

原创 IDEA中运行DirectKafkaWordCount程序

1,将SPARK_HOME中的DirectKafkaWordCount程序复制到idea中.2,由于在KafkaWordCount中已引入相关jar包,此步可略过3,配置configurations参数 关于program arguments参数,程序中定义如下:/** * Consumes messages from one or more topics

2015-09-24 10:30:31 2009

原创 Spark1.4从HDFS读取文件运行Java语言WordCounts

Hadoop:2.4.0Spark:1.4.0Ubuntu 14.01、首先启动Hadoop的HDFS系统。    HADOOP_HOME/sbin/start-dfs.sh2、在Linux中生成一个文件test.txt,保存在/home/testjars/目录下3、通过hadoop fs -put命令上传    hadoop fs -put

2015-09-24 10:22:41 2833

翻译 Spark SQL官方文档阅读--待完善

1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表.编程入口:SQLContext2,SQLContext由SparkContext对象创建也可创建一个功能更加全面的HiveContext对象,HiveContext是SQLContext的子类,从API中可以看出HiveContext extends SQLContext,所以能用SQL

2015-09-24 10:21:28 4100

原创 Sql表注释

1 创建表的时候写注释create table test1( field_name int comment '字段的注释')comment='表的注释'; 2 修改表的注释alter table test1 comment '修改后的表的注释'; 3 修改字段的注释alter table test1 modify column field_name int comment

2015-09-24 10:19:21 2410

原创 Ubuntu14.04安装配置星际译王词典

参考自:http://m.blog.csdn.net/blog/u014731529/25917149平常总会遇到一些不认识的单词,汉字等等。一直使用Chrome 浏览器的翻译插件,不过插件的翻译总是那么简单,复制了去查又太麻烦了。于是,就在软件中心找到了星际译王,装完我立马感觉到了译王的强大!       星际译王有N多的词典,并且支持屏幕取词翻译,还有很多我还没

2015-09-24 10:17:37 1015

原创 Ubuntu中firefox设置成中文

进入http://ftp.mozilla.org/pub/mozilla.org/firefox/nightly按版本选择下去,帮助(help)-->关于,查看浏览器的版本号所以,目录是35.0.1-candidates/build1/linux-i686/xpi/选择其中的zh-CN.xpi,点击安装,重启火狐后,火狐就是中文界面了参考网站:h

2015-09-24 10:16:27 5779

转载 Linux中的查找命令find

原文:http://blog.csdn.net/windone0109/article/details/2817792查找目录:find /(查找范围) -name '查找关键字' -type d查找文件:find /(查找范围) -name 查找关键字 -print  如果需要更进一步的了解,可以参看Linux的命令详解。这里摘抄如

2015-09-24 10:15:43 516

原创 Ubuntu14.04安装配置Chrome浏览器

1.获取软件32位版本:           wget https://dl.google.com/linux/direct/google-chrome-stable_current_i386.deb64位版本:           wget https://dl.google.com/linux/direct/google-chrome-stable_curren

2015-09-24 10:14:58 2447

原创 Win7 Eclipse Hadoop2.4插件配置

准备工作:     1、下载hadoop2x-eclipse-plugin-master.zip            Github地址:https://github.com/winghc/hadoop2x-eclipse-plugin            百度网盘地址:http://www.pan1234.com/result.jsp?wp=0&op=0&ty=gn&q

2015-09-24 10:12:24 537

原创 Ubuntu文件中文乱码

如图,该文件在gedit打开中文显示正常在命令行中用vim打开,显示内容如下:使用命令进行编码转换iconv -f gbk -t utf8 ./SogouQ.mini > ./sougou.data转换后vim中显示正常

2015-09-24 10:10:45 1270

原创 flume1.4.0 保存文件到hdfs错误调试

报错如下解决方案:将FLUME_HOME/lib目录下的jar文件,替换成HADOOP_HOME/share/hadoop/common/lib下版本更新的jar文件

2015-09-24 10:09:37 593

原创 安装配置Kafka

1,下载kafka安装包,解压缩,tar -zxvf kafka_2.10-0.8.2.1.tgz2,修改/etc/profile文件,增加KAFKA_HOME变量3,进入KAFKA_HOME/config目录(1)修改server.properties文件broker.id=0host.name=master(在slave1中,master-->slave

2015-09-24 10:06:16 811

原创 Hive drop table卡住的问题

在hive中,show tables,create 等命令能正常执行,删除表drop table x时,会出现卡住的现象.进入mysql,show variables like 'char%'可以看到按理说是正确的.后面发现,是在建好hive数据库后,没有第一时间将character_set_database编码由utf8修改为latin1.而是去h

2015-09-24 10:04:25 8646

翻译 Spark MLlib数据类型

MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵.1,本地向量(Local Vector)    一个本地向量是由从0开始的整型下标和double型值组成,存储在一个单机节点上.MLlib支持两种类型的本地向量:密集的和稀疏的.密集向量用一个double数组来存储值.而一个

2015-09-24 09:57:07 4346

原创 Spark Streaming + Flume整合官网文档阅读及运行示例

1,基于Flume的Push模式(Flume-style Push-based Approach)     Flume被用于在Flume agents之间推送数据.在这种方式下,Spark Streaming可以很方便的建立一个receiver,起到一个Avro agent的作用.Flume可以将数据推送到改receiver.1),需求从集群中选择一台机器,当Flu

2015-09-23 15:56:30 2905

原创 Spark-streaming 连接flume

1,程序为spark的example中的FlumeEventCount示例object FlumeEventCount { def main(args: Array[String]) { StreamingExamples.setStreamingLogLevels() //val Array(host, IntParam(port)) = args val host

2015-09-23 14:17:22 1180

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除