dabokele-CSDN博客

本文以Sqoop User Guide (v1.4.5)为主，对Sqoop-1.4.5的用户手册进行翻译，同时会结合一些实际操作中的注意事项一并写入。由于原文档很长，本文首先会以实际使用到的部分为主，逐步进行完善。 1、Introduction　　Sqoop是一个用于在Hadoop和关系型数据库之间流转数据的一个工具。可以使用Sqoop将数据从关系型数据库系统(RDBMS)比如MySQL或者Orac

2016-07-09 21:08:11 10549

原创 Spark UI界面原理

本文以Spark-1.6.0源码为基础，分析了Spark UI界面的框架构成，及页面数据展示方法。

2016-07-06 23:21:51 21595

原创 Spark-1.6.0之Application运行信息记录器JobProgressListener

JobProgressListener类是Spark的ListenerBus中一个很重要的监听器，可以用于记录Spark任务的Job和Stage等信息，比如在Spark UI页面上Job和Stage运行状况以及运行进度的显示等数据，就是从JobProgressListener中获得的。本文主要分析了JobProgressListener的结构，以及数据生产和消费的过程。

2016-07-05 23:42:21 5857

原创 Hive-ORC文件存储格式（续）

本文在Hive-ORC文件存储格式的理论基础上，进一步分析一个实际的Hive ORC表中的数据存储形式。

2016-07-02 23:35:36 10633 1

原创 ELK平台的搭建

本文主要介绍了日志分析ELK集群的搭建过程

2016-06-26 23:05:36 21616 1

原创 Hadoop-2.X HA模式下的FSImage和EditsLog合并过程

Hadoop-2.X中HA模式下FSImage和EditsLog的checkpoint操作过程分析

2016-06-15 23:57:11 7177 3

原创 hive元数据库表分析及操作

本文分析hive的元数据作用、配置，元数据库表结构、功能以及对元数据的直接查询

2016-06-12 22:59:57 19809

原创 Hive-RCFile文件存储格式

RCFile的文件存储格式，可以和ORC格式进行对比

2016-06-03 23:14:20 3790

原创 Hive-ORC文件存储格式

本文分析Hive中ORC文件存储格式的原理和实际案例

2016-05-31 00:18:15 20402

原创 Spark调度模式-FIFO和FAIR

Spark中的调度模式主要有两种：FIFO和FAIR。使用哪种调度器由参数spark.scheduler.mode来设置，默认为FIFO

2016-05-28 18:12:10 25506 6

原创 Spark-1.6.0中的Sort Based Shuffle源码解读

Spark-1.6.0源码中默认的Sort Based Shuffle， Shuffle Write和Shuffle Read过程分析。

2016-05-25 23:22:40 9902 1

原创 Spark内存管理-UnifiedMemoryManager和StaticMemoryManager

在Spark-1.6.0中，引入了一个新的参数spark.memory.userLegacyMode（默认值为false），表示不使用Spark-1.6.0之前的内存管理机制，而是使用1.6.0中引入的动态内存分配这一概念。　　从SparkEnv.scala的源码中可以看到，该参数设置为true或false，主要影响到构造memoryManager的类的不同：val useLegacyMemoryM

2016-05-22 16:01:54 12279 8

原创 Win7 Eclipse Hadoop2.4插件配置

准备工作： 1、下载hadoop2x-eclipse-plugin-master.zip Github地址：https://github.com/winghc/hadoop2x-eclipse-plugin 百度网盘地址：http://www.pan1234.com/result.jsp?wp=0&op=0&ty=gn&q=hadoop

2015-11-05 20:53:10 972

原创 K-均值聚类算法(K-means)

K-means是一种无监督的学习,将相似的对象归到同一个簇中.可以将一批数据分为K个不同的簇,并且每个簇的中心采用簇中所含样本的均值计算而成. K-means算法的K值需要由用户指定,算法开始时随机选择K个初始点作为质心,然后将数据集中的每个点分配到一个簇中.那么,如何确定某一组数据归于哪个簇中呢?这是通过计算这一组数据与K个质心的距离来实现的,这组数据离哪个质心最近,就将其归于哪个

2015-09-25 16:55:21 3353

原创 Linux命令行快捷键

1,ctrl + a 跳至第一个字母,相当于home2,ctrl + e 跳至最后一个字母,相当于end3,ctrl + u 删除此处至最前面所有字符4,ctrl + k 删除此处至末尾所有字符5,ctrl + w 删除此处至左边单词(即到左边第一个空格为止)6,ctrl + d 删除当前选中字符7,c

2015-09-24 10:42:21 909

原创 Spark程序开发-环境搭建-程序编写-Debug调试-项目提交

1,使用IDEA软件进行开发.在idea中新建scala project, File-->New-->Project.选择Scala-->Scala2,在编辑窗口中完成WordCount程序的编写,完整程序如下:object WordCount { def main(args: Array[String]) { val conf = new Spark

2015-09-24 10:33:16 1786

原创 IDEA中运行KafkaWordCount程序

1,从spark的example中找到KafkaWordCount.scala文件复制到idea编辑器中,引入包:2,编辑configuration, (1)KafkaWordCountProducer 选择KafkaWordCount.scala中的KafkaWordCountProducer方法 VM options 设置为:-Ds

2015-09-24 10:31:49 2936 2

翻译分析比较KafkaWordCount及DierctKafkaWordCount

参考spark官方文档,Spark Streaming + Kafka Integration Guide,其中提到Spark Streaming如何从Kafka中接收数据.主要有两种方法,一种是使用Receivers的旧方法,另一种是不使用Receivers的新方法(从Spark 1.3才开始引入)1,Approach 1: Receiver-based Approach(基于Rec

2015-09-24 10:31:03 1570

原创 IDEA中运行DirectKafkaWordCount程序

1,将SPARK_HOME中的DirectKafkaWordCount程序复制到idea中.2,由于在KafkaWordCount中已引入相关jar包,此步可略过3,配置configurations参数关于program arguments参数,程序中定义如下:/** * Consumes messages from one or more topics

2015-09-24 10:30:31 2010

原创 Spark1.4从HDFS读取文件运行Java语言WordCounts

Hadoop：2.4.0Spark：1.4.0Ubuntu 14.01、首先启动Hadoop的HDFS系统。 HADOOP_HOME/sbin/start-dfs.sh2、在Linux中生成一个文件test.txt，保存在/home/testjars/目录下3、通过hadoop fs -put命令上传 hadoop fs -put

2015-09-24 10:22:41 2833

翻译 Spark SQL官方文档阅读--待完善

1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表.编程入口:SQLContext2,SQLContext由SparkContext对象创建也可创建一个功能更加全面的HiveContext对象,HiveContext是SQLContext的子类,从API中可以看出HiveContext extends SQLContext,所以能用SQL

2015-09-24 10:21:28 4100

原创 Sql表注释

1 创建表的时候写注释create table test1( field_name int comment '字段的注释')comment='表的注释'; 2 修改表的注释alter table test1 comment '修改后的表的注释'; 3 修改字段的注释alter table test1 modify column field_name int comment

2015-09-24 10:19:21 2411

原创 Ubuntu14.04安装配置星际译王词典

参考自:http://m.blog.csdn.net/blog/u014731529/25917149平常总会遇到一些不认识的单词，汉字等等。一直使用Chrome 浏览器的翻译插件，不过插件的翻译总是那么简单，复制了去查又太麻烦了。于是，就在软件中心找到了星际译王，装完我立马感觉到了译王的强大！星际译王有N多的词典，并且支持屏幕取词翻译，还有很多我还没

2015-09-24 10:17:37 1015

原创 Ubuntu中firefox设置成中文

进入http://ftp.mozilla.org/pub/mozilla.org/firefox/nightly按版本选择下去，帮助(help)-->关于,查看浏览器的版本号所以，目录是35.0.1-candidates/build1/linux-i686/xpi/选择其中的zh-CN.xpi，点击安装，重启火狐后，火狐就是中文界面了参考网站:h

2015-09-24 10:16:27 5779

转载 Linux中的查找命令find

原文:http://blog.csdn.net/windone0109/article/details/2817792查找目录：find /（查找范围） -name '查找关键字' -type d查找文件：find /（查找范围） -name 查找关键字 -print 如果需要更进一步的了解，可以参看Linux的命令详解。这里摘抄如

2015-09-24 10:15:43 518

原创 Ubuntu14.04安装配置Chrome浏览器

1.获取软件32位版本: wget https://dl.google.com/linux/direct/google-chrome-stable_current_i386.deb64位版本: wget https://dl.google.com/linux/direct/google-chrome-stable_curren

2015-09-24 10:14:58 2447

原创 Win7 Eclipse Hadoop2.4插件配置

准备工作： 1、下载hadoop2x-eclipse-plugin-master.zip Github地址：https://github.com/winghc/hadoop2x-eclipse-plugin 百度网盘地址：http://www.pan1234.com/result.jsp?wp=0&op=0&ty=gn&q

2015-09-24 10:12:24 537

原创 Ubuntu文件中文乱码

如图,该文件在gedit打开中文显示正常在命令行中用vim打开,显示内容如下:使用命令进行编码转换iconv -f gbk -t utf8 ./SogouQ.mini > ./sougou.data转换后vim中显示正常

2015-09-24 10:10:45 1270

原创 flume1.4.0 保存文件到hdfs错误调试

报错如下解决方案:将FLUME_HOME/lib目录下的jar文件,替换成HADOOP_HOME/share/hadoop/common/lib下版本更新的jar文件

2015-09-24 10:09:37 593

原创安装配置Kafka

1,下载kafka安装包,解压缩,tar -zxvf kafka_2.10-0.8.2.1.tgz2,修改/etc/profile文件,增加KAFKA_HOME变量3,进入KAFKA_HOME/config目录(1)修改server.properties文件broker.id=0host.name=master(在slave1中,master-->slave

2015-09-24 10:06:16 811

原创 Hive drop table卡住的问题

在hive中,show tables,create 等命令能正常执行,删除表drop table x时,会出现卡住的现象.进入mysql,show variables like 'char%'可以看到按理说是正确的.后面发现,是在建好hive数据库后,没有第一时间将character_set_database编码由utf8修改为latin1.而是去h

2015-09-24 10:04:25 8646

翻译 Spark MLlib数据类型

MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵.1,本地向量(Local Vector) 一个本地向量是由从0开始的整型下标和double型值组成,存储在一个单机节点上.MLlib支持两种类型的本地向量:密集的和稀疏的.密集向量用一个double数组来存储值.而一个

2015-09-24 09:57:07 4348

原创 Spark Streaming + Flume整合官网文档阅读及运行示例

1,基于Flume的Push模式(Flume-style Push-based Approach) Flume被用于在Flume agents之间推送数据.在这种方式下,Spark Streaming可以很方便的建立一个receiver,起到一个Avro agent的作用.Flume可以将数据推送到改receiver.1),需求从集群中选择一台机器,当Flu

2015-09-23 15:56:30 2905

原创 Spark-streaming 连接flume

1,程序为spark的example中的FlumeEventCount示例object FlumeEventCount { def main(args: Array[String]) { StreamingExamples.setStreamingLogLevels() //val Array(host, IntParam(port)) = args val host

2015-09-23 14:17:22 1180

空空如也

空空如也