- 博客(48)
- 资源 (2)
- 问答 (3)
- 收藏
- 关注
原创 Spark API编程动手实战-06-对搜狗日志文件深入实战操作
本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示:上传到服务器后,解压并查看:查看Sogou文件内容:该文件的格式如下所示:访问时间 \t 用户ID \t 查询词 \t 该URL在返
2015-01-29 13:18:38 17601 1
原创 Linux下解压命令大全 解压缩 tar bz2 zip tar.gz gz
.tar解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)———————————————.gz解压1:gunzip FileName.gz解压2:gzip -d FileName.gz压缩:gzip FileName.tar.gz 和 .tgz解压:tar zxvf F
2015-01-28 17:30:42 20348
原创 Spark API编程动手实战-05-spark文件操作和debug
这次 我们以指定executor-memory参数的方式来启动spark-shell:启动成功了在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面:从hdfs上读取文件:在命令行中返回的MappedRDD,使用toDebugString,可以查看其line
2015-01-27 15:11:09 15303
原创 Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKey、join、reduce、lookup等操作实践
下面看下union的使用:使用collect操作查看一下执行结果:再看下groupByKey的使用:执行结果:join操作就是一个笛卡尔积操作的过程,如下示例:对rdd3和rdd4执行join操作:使用collect查看执行结果:可以看出join操作完全就是一个笛卡尔积的操作
2015-01-26 11:31:34 17302 2
原创 Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序
Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序
2015-01-23 16:27:40 15228
原创 Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count
Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count
2015-01-23 10:06:13 15250 1
原创 Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect
Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collectWelcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 1.2.0 /_/Using Scala version 2.10.4 (Java HotSpot(TM) 64-B
2015-01-22 12:05:25 14829
原创 spark内核揭秘-14-Spark性能优化的10大问题及其解决方案
问题1:reduce task数目不合适解决方案:需要根据实际情况调整默认配置,调整方式是修改参数spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism问题2:shuffle
2015-01-22 10:35:06 26500
原创 spark内核揭秘-13-Worker中Executor启动过程源码分析
spark内核揭秘-13-Worker中Executor启动过程源码分析 spark内核揭秘-13-Worker中Executor启动过程源码分析 spark内核揭秘-13-Worker中Executor启动过程源码分析 spark内核揭秘-13-Worker中Executor启动过程源码分析
2015-01-21 21:34:14 15221
原创 spark内核揭秘-12-AppClient注册Masters
spark内核揭秘-12-AppClient注册Master一个资源大管家,其职责主要包括两个方面: * Cluster资源的管理和Cluster的通讯管理 * * 资源管理 *** Worker资源 RegisterWorker WorkDirCleanup *** Driver资源 RequestSubmitDriver RequestKillDriver *** App资源 RegisteredApplication *** Executor资
2015-01-21 20:31:20 15198 6
原创 spark内核揭秘-11-Driver中AppClient源码分析
spark内核揭秘-11-Driver中AppClient源码分析 Interface allowing applications to speak with a Spark deploy cluster. Takes a master URL,an app description, and a listener for cluster events, and calls back the listener when various events occur.
2015-01-21 18:43:02 15099
原创 spark内核揭秘-10-RDD源码分析
spark内核揭秘-10-RDD源码分析** * A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, * partitioned collection of elements that can be operated on in parallel. This class contains the * basic operations available on a
2015-01-21 15:31:27 15196
原创 spark内核揭秘-09-RDD的count操作 触发Job全生命周期-02
spark内核揭秘-09-RDD的count操作 触发Job全生命周期-02spark内核揭秘-09-RDD的count操作 触发Job全生命周期-02spark内核揭秘-09-RDD的count操作 触发Job全生命周期-02spark内核揭秘-09-RDD的count操作 触发Job全生命周期-02
2015-01-20 17:57:51 15154
原创 spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01
spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01
2015-01-20 16:10:51 18593 2
原创 spark内核揭秘-08-spark的Web监控页面
spark内核揭秘-08-spark的Web监控页面spark内核揭秘-08-spark的Web监控页面spark内核揭秘-08-spark的Web监控页面spark内核揭秘-08-spark的Web监控页面
2015-01-20 12:42:35 22252
原创 spark内核揭秘-07-DAGScheduler源码解读初体验
spark内核揭秘-07-DAGScheduler源码解读初体验spark内核揭秘-07-DAGScheduler源码解读初体验spark内核揭秘-07-DAGScheduler源码解读初体验spark内核揭秘-07-DAGScheduler源码解读初体验
2015-01-19 20:55:40 15746
原创 spark内核揭秘-06-TaskSceduler启动源码解析初体验
spark内核揭秘-06-TaskSceduler启动源码解析初体验spark内核揭秘-06-TaskSceduler启动源码解析初体验spark内核揭秘-06-TaskSceduler启动源码解析初体验spark内核揭秘-06-TaskSceduler启动源码解析初体验
2015-01-19 18:15:54 15095
原创 spark内核揭秘-05-SparkContext核心源码解析初体验
SparkContext在获得了一系列的初始化信息后开始创建并启动TaskScheduler实例:进入createTaskScheduler方法:spark内核揭秘-05-SparkContext核心源码解析初体验我们看一下其Standalone的方式:在上述代码中首先实例化一个TaskSchedulerImpl:然后构建出了masterUrls:接着创建出了非常关键的backend:
2015-01-19 15:08:00 14589
原创 spark内核揭秘-04-spark任务调度系统个人理解
spark内核揭秘-04-spark任务调度系统个人理解spark内核揭秘-04-spark任务调度系统个人理解spark内核揭秘-04-spark任务调度系统个人理解spark内核揭秘-04-spark任务调度系统个人理解
2015-01-18 13:35:54 17388
原创 spark内核揭秘-03-spark核心组件
spark内核揭秘-03-spark核心组件spark内核揭秘-03-spark核心组件spark内核揭秘-03-spark核心组件spark内核揭秘-03-spark核心组件
2015-01-18 09:46:30 16620
原创 spark内核揭秘-02-spark集群概览
spark内核揭秘-02-spark集群概览spark内核揭秘-02-spark集群概览spark内核揭秘-02-spark集群概览spark内核揭秘-02-spark集群概览
2015-01-18 09:15:49 14607
原创 spark内核揭秘-01-spark内核核心术语解析
spark内核揭秘-01-spark内核核心术语解析spark内核揭秘-01-spark内核核心术语解析spark内核揭秘-01-spark内核核心术语解析spark内核揭秘-01-spark内核核心术语解析
2015-01-18 09:01:21 15411 1
原创 spark架构设计&编程模型 02
spark架构设计&编程模型 02spark架构设计&编程模型 02spark架构设计&编程模型 02spark架构设计&编程模型 02
2015-01-16 18:52:11 14979
原创 spark架构设计&编程模型01
spark架构设计&编程模型01spark架构设计&编程模型01spark架构设计&编程模型01spark架构设计&编程模型01
2015-01-16 17:25:06 15486
原创 hadoop&spark mapreduce对比 & 框架设计和理解
hadoop&spark mapreduce对比 & 框架设计和理解hadoop&spark mapreduce对比 & 框架设计和理解hadoop&spark mapreduce对比 & 框架设计和理解hadoop&spark mapreduce对比 & 框架设计和理解
2015-01-16 15:15:16 17249 3
原创 maven 根据P参数值打包动态修改properties文件中值或一定properties
maven 根据P参数值打包动态修改properties文件中值或一定propertiesmaven 根据P参数值打包动态修改properties文件中值或一定propertiesmaven 根据P参数值打包动态修改properties文件中值或一定propertiesmaven 根据P参数值打包动态修改properties文件中值或一定properties
2015-01-15 17:56:16 27239 1
原创 scala入门-10 隐式转换、隐式参数、隐式类
scala入门-10 隐式转换、隐式参数、隐式类scala入门-10 隐式转换、隐式参数、隐式类scala入门-10 隐式转换、隐式参数、隐式类scala入门-10 隐式转换、隐式参数、隐式类scala入门-10 隐式转换、隐式参数、隐式类
2015-01-13 18:40:22 23356
原创 scala入门-09 scala高阶函数
scala入门-09 scala高阶函数scala入门-09 scala高阶函数scala入门-09 scala高阶函数scala入门-09 scala高阶函数
2015-01-13 17:36:02 17897
原创 scala入门-08 apply方法和单例对象的使用
scala入门-08 apply方法和单例对象的使用scala入门-08 apply方法和单例对象的使用scala入门-08 apply方法和单例对象的使用scala入门-08 apply方法和单例对象的使用
2015-01-13 15:27:06 14815 1
原创 查看linux系统信息命令(kernel、os、cpu等)
查看linux系统信息命令(kernel、os、cpu等)查看linux系统信息命令(kernel、os、cpu等)查看linux系统信息命令(kernel、os、cpu等)查看linux系统信息命令(kernel、os、cpu等)
2015-01-13 12:18:10 18759
原创 scala入门-07特质类(trait)的使用
scala入门-07特质类(trait)的使用scala入门-07特质类(trait)的使用scala入门-07特质类(trait)的使用
2015-01-12 18:45:59 16764
原创 scala入门-06抽象类(abstract)的使用
scala入门-06抽象类(abstract)的使用scala入门-06抽象类(abstract)的使用
2015-01-12 18:11:37 18296
原创 scala入门-05继承类(extends)的使用
scala入门-05继承类(extends)的使用scala入门-05继承类(extends)的使用scala入门-05继承类(extends)的使用
2015-01-12 17:40:29 15997
原创 本人csdn、iteye、oschina等三个博客同时更新撰写文章,大家都可以看
本人csdn、iteye、oschina等三个博客同时更新撰写文章,大家都可以看但之前更多的经历还是在iteye上面写,但现在三个博客都同时撰写csdn:http://blog.csdn.net/stark_summeriteye:http://stark-summer.iteye.com/oschina:http://my.oschina.net/u/230960/blo
2015-01-12 12:37:18 1621 1
原创 putty windows上传文件到linux服务器 & 从linux服务器 下载文件到 windows
putty windows上传文件到linux服务器 & 从linux服务器 下载文件到 windows
2015-01-12 12:11:40 72987
原创 jetty命令行方式启动jetty-runner.jar 容器
jetty命令行方式启动jetty-runner.jar 容器jetty命令行方式启动jetty-runner.jar 容器
2015-01-09 14:09:55 18365
原创 本地开发spark代码上传spark集群服务并运行(基于spark官网文档)
本地开发spark代码上传spark集群服务并运行(基于spark官网文档)
2015-01-08 18:48:09 24092 3
zookeeper java.lang.NoSuchMethodError异常
2014-12-10
到底年前去京东商城实习还是不去?
2011-11-23
求今年12月1去京东商城实习的朋友
2011-11-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人