- 博客(87)
- 资源 (1)
- 收藏
- 关注
原创 Kafka系列之-自定义Producer
Kafka自定义Producer以及Partitioner,并对Producer进行一定的封装。
2016-08-15 23:37:49 23534 1
原创 Spark Scheduler模块源码分析之TaskScheduler和SchedulerBackend
本文是Scheduler模块源码分析的第二篇,第一篇Spark Scheduler模块源码分析之DAGScheduler主要分析了DAGScheduler。本文接下来结合Spark-1.6.0的源码继续分析TaskScheduler和SchedulerBackend。
2016-07-17 13:59:15 8275 3
原创 Spark Scheduler模块源码分析之DAGScheduler
本文主要结合Spark-1.6.0的源码,对Spark中任务调度模块的执行过程进行分析,分析了Scheduler模块中DAGScheduler的作用,构成,以及Stage划分和Stage最终的提交过程。
2016-07-13 23:47:28 13933 10
翻译 Sqoop-1.4.5用户手册
本文以Sqoop User Guide (v1.4.5)为主,对Sqoop-1.4.5的用户手册进行翻译,同时会结合一些实际操作中的注意事项一并写入。由于原文档很长,本文首先会以实际使用到的部分为主,逐步进行完善。 1、Introduction Sqoop是一个用于在Hadoop和关系型数据库之间流转数据的一个工具。可以使用Sqoop将数据从关系型数据库系统(RDBMS)比如MySQL或者Orac
2016-07-09 21:08:11 10549
原创 Spark-1.6.0之Application运行信息记录器JobProgressListener
JobProgressListener类是Spark的ListenerBus中一个很重要的监听器,可以用于记录Spark任务的Job和Stage等信息,比如在Spark UI页面上Job和Stage运行状况以及运行进度的显示等数据,就是从JobProgressListener中获得的。本文主要分析了JobProgressListener的结构,以及数据生产和消费的过程。
2016-07-05 23:42:21 5857
原创 Hive-ORC文件存储格式(续)
本文在Hive-ORC文件存储格式的理论基础上,进一步分析一个实际的Hive ORC表中的数据存储形式。
2016-07-02 23:35:36 10633 1
原创 Hadoop-2.X HA模式下的FSImage和EditsLog合并过程
Hadoop-2.X中HA模式下FSImage和EditsLog的checkpoint操作过程分析
2016-06-15 23:57:11 7177 3
原创 Spark调度模式-FIFO和FAIR
Spark中的调度模式主要有两种:FIFO和FAIR。使用哪种调度器由参数spark.scheduler.mode来设置,默认为FIFO
2016-05-28 18:12:10 25506 6
原创 Spark-1.6.0中的Sort Based Shuffle源码解读
Spark-1.6.0源码中默认的Sort Based Shuffle, Shuffle Write和Shuffle Read过程分析。
2016-05-25 23:22:40 9902 1
原创 Spark内存管理-UnifiedMemoryManager和StaticMemoryManager
在Spark-1.6.0中,引入了一个新的参数spark.memory.userLegacyMode(默认值为false),表示不使用Spark-1.6.0之前的内存管理机制,而是使用1.6.0中引入的动态内存分配这一概念。 从SparkEnv.scala的源码中可以看到,该参数设置为true或false,主要影响到构造memoryManager的类的不同:val useLegacyMemoryM
2016-05-22 16:01:54 12279 8
原创 Win7 Eclipse Hadoop2.4插件配置
准备工作: 1、下载hadoop2x-eclipse-plugin-master.zip Github地址:https://github.com/winghc/hadoop2x-eclipse-plugin 百度网盘地址:http://www.pan1234.com/result.jsp?wp=0&op=0&ty=gn&q=hadoop
2015-11-05 20:53:10 972
原创 K-均值聚类算法(K-means)
K-means是一种无监督的学习,将相似的对象归到同一个簇中.可以将一批数据分为K个不同的簇,并且每个簇的中心采用簇中所含样本的均值计算而成. K-means算法的K值需要由用户指定,算法开始时随机选择K个初始点作为质心,然后将数据集中的每个点分配到一个簇中.那么,如何确定某一组数据归于哪个簇中呢?这是通过计算这一组数据与K个质心的距离来实现的,这组数据离哪个质心最近,就将其归于哪个
2015-09-25 16:55:21 3353
原创 Linux命令行快捷键
1,ctrl + a 跳至第一个字母,相当于home2,ctrl + e 跳至最后一个字母,相当于end3,ctrl + u 删除此处至最前面所有字符4,ctrl + k 删除此处至末尾所有字符5,ctrl + w 删除此处至左边单词(即到左边第一个空格为止)6,ctrl + d 删除当前选中字符7,c
2015-09-24 10:42:21 909
原创 Spark程序开发-环境搭建-程序编写-Debug调试-项目提交
1,使用IDEA软件进行开发.在idea中新建scala project, File-->New-->Project.选择Scala-->Scala2,在编辑窗口中完成WordCount程序的编写,完整程序如下:object WordCount { def main(args: Array[String]) { val conf = new Spark
2015-09-24 10:33:16 1786
原创 IDEA中运行KafkaWordCount程序
1,从spark的example中找到KafkaWordCount.scala文件复制到idea编辑器中,引入包:2,编辑configuration, (1)KafkaWordCountProducer 选择KafkaWordCount.scala中的KafkaWordCountProducer方法 VM options 设置为:-Ds
2015-09-24 10:31:49 2936 2
翻译 分析比较KafkaWordCount及DierctKafkaWordCount
参考spark官方文档,Spark Streaming + Kafka Integration Guide,其中提到Spark Streaming如何从Kafka中接收数据.主要有两种方法,一种是使用Receivers的旧方法,另一种是不使用Receivers的新方法(从Spark 1.3才开始引入)1,Approach 1: Receiver-based Approach(基于Rec
2015-09-24 10:31:03 1570
原创 IDEA中运行DirectKafkaWordCount程序
1,将SPARK_HOME中的DirectKafkaWordCount程序复制到idea中.2,由于在KafkaWordCount中已引入相关jar包,此步可略过3,配置configurations参数 关于program arguments参数,程序中定义如下:/** * Consumes messages from one or more topics
2015-09-24 10:30:31 2010
原创 Spark1.4从HDFS读取文件运行Java语言WordCounts
Hadoop:2.4.0Spark:1.4.0Ubuntu 14.01、首先启动Hadoop的HDFS系统。 HADOOP_HOME/sbin/start-dfs.sh2、在Linux中生成一个文件test.txt,保存在/home/testjars/目录下3、通过hadoop fs -put命令上传 hadoop fs -put
2015-09-24 10:22:41 2833
翻译 Spark SQL官方文档阅读--待完善
1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表.编程入口:SQLContext2,SQLContext由SparkContext对象创建也可创建一个功能更加全面的HiveContext对象,HiveContext是SQLContext的子类,从API中可以看出HiveContext extends SQLContext,所以能用SQL
2015-09-24 10:21:28 4100
原创 Sql表注释
1 创建表的时候写注释create table test1( field_name int comment '字段的注释')comment='表的注释'; 2 修改表的注释alter table test1 comment '修改后的表的注释'; 3 修改字段的注释alter table test1 modify column field_name int comment
2015-09-24 10:19:21 2411
原创 Ubuntu14.04安装配置星际译王词典
参考自:http://m.blog.csdn.net/blog/u014731529/25917149平常总会遇到一些不认识的单词,汉字等等。一直使用Chrome 浏览器的翻译插件,不过插件的翻译总是那么简单,复制了去查又太麻烦了。于是,就在软件中心找到了星际译王,装完我立马感觉到了译王的强大! 星际译王有N多的词典,并且支持屏幕取词翻译,还有很多我还没
2015-09-24 10:17:37 1015
原创 Ubuntu中firefox设置成中文
进入http://ftp.mozilla.org/pub/mozilla.org/firefox/nightly按版本选择下去,帮助(help)-->关于,查看浏览器的版本号所以,目录是35.0.1-candidates/build1/linux-i686/xpi/选择其中的zh-CN.xpi,点击安装,重启火狐后,火狐就是中文界面了参考网站:h
2015-09-24 10:16:27 5779
转载 Linux中的查找命令find
原文:http://blog.csdn.net/windone0109/article/details/2817792查找目录:find /(查找范围) -name '查找关键字' -type d查找文件:find /(查找范围) -name 查找关键字 -print 如果需要更进一步的了解,可以参看Linux的命令详解。这里摘抄如
2015-09-24 10:15:43 518
原创 Ubuntu14.04安装配置Chrome浏览器
1.获取软件32位版本: wget https://dl.google.com/linux/direct/google-chrome-stable_current_i386.deb64位版本: wget https://dl.google.com/linux/direct/google-chrome-stable_curren
2015-09-24 10:14:58 2447
原创 Win7 Eclipse Hadoop2.4插件配置
准备工作: 1、下载hadoop2x-eclipse-plugin-master.zip Github地址:https://github.com/winghc/hadoop2x-eclipse-plugin 百度网盘地址:http://www.pan1234.com/result.jsp?wp=0&op=0&ty=gn&q
2015-09-24 10:12:24 537
原创 Ubuntu文件中文乱码
如图,该文件在gedit打开中文显示正常在命令行中用vim打开,显示内容如下:使用命令进行编码转换iconv -f gbk -t utf8 ./SogouQ.mini > ./sougou.data转换后vim中显示正常
2015-09-24 10:10:45 1270
原创 flume1.4.0 保存文件到hdfs错误调试
报错如下解决方案:将FLUME_HOME/lib目录下的jar文件,替换成HADOOP_HOME/share/hadoop/common/lib下版本更新的jar文件
2015-09-24 10:09:37 593
原创 安装配置Kafka
1,下载kafka安装包,解压缩,tar -zxvf kafka_2.10-0.8.2.1.tgz2,修改/etc/profile文件,增加KAFKA_HOME变量3,进入KAFKA_HOME/config目录(1)修改server.properties文件broker.id=0host.name=master(在slave1中,master-->slave
2015-09-24 10:06:16 811
原创 Hive drop table卡住的问题
在hive中,show tables,create 等命令能正常执行,删除表drop table x时,会出现卡住的现象.进入mysql,show variables like 'char%'可以看到按理说是正确的.后面发现,是在建好hive数据库后,没有第一时间将character_set_database编码由utf8修改为latin1.而是去h
2015-09-24 10:04:25 8646
翻译 Spark MLlib数据类型
MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵.1,本地向量(Local Vector) 一个本地向量是由从0开始的整型下标和double型值组成,存储在一个单机节点上.MLlib支持两种类型的本地向量:密集的和稀疏的.密集向量用一个double数组来存储值.而一个
2015-09-24 09:57:07 4348
原创 Spark Streaming + Flume整合官网文档阅读及运行示例
1,基于Flume的Push模式(Flume-style Push-based Approach) Flume被用于在Flume agents之间推送数据.在这种方式下,Spark Streaming可以很方便的建立一个receiver,起到一个Avro agent的作用.Flume可以将数据推送到改receiver.1),需求从集群中选择一台机器,当Flu
2015-09-23 15:56:30 2905
原创 Spark-streaming 连接flume
1,程序为spark的example中的FlumeEventCount示例object FlumeEventCount { def main(args: Array[String]) { StreamingExamples.setStreamingLogLevels() //val Array(host, IntParam(port)) = args val host
2015-09-23 14:17:22 1180
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人