云计算
jiewuyou
爱编程不爱bug
展开
-
衡量云计算ROI的八个指标
发布时间:2010-12-31 06:07:00 来源:计算机世界衡量云计算的投资回报,不仅仅需要容量和利用率方面的衡量标准。下面介绍的8个衡量标准,可为当前和将来与云计算有关的业务和IT打分。开放组织(Open Group)最近开展了一项计划,评出了云计算的一系列重要的考量因素,以便从业务的角度获得和衡量云计算项目的投资回报率(ROI)。如果你所在的公司或转载 2013-09-07 11:19:10 · 5533 阅读 · 0 评论 -
spark必须知道的几个观点
executor对应container内存executor对应的内存由两部分组成: –exuecutor-memory控制了堆的大小 –spark.yarn.executor.memoryOverhead 控制堆外内存,默认值(384MB, 0.07 * spark.executor.memory),该值一般偏小,需要调大 日志凡是cluster模式启动的作业,日志都没有打印在本地。因为mai原创 2016-09-19 18:57:09 · 956 阅读 · 0 评论 -
spark运行方式及其常用参数
本文将介绍spark的几种运行方式,及常用的参数yarn cluster模式例行任务一般会采用这种方式运行指定固定的executor数作业常用的参数都在其中指定了,后面的运行脚本会省略spark-submit \ --master yarn-cluster \ --deploy-mode cluster \ #集群运行模式 --name原创 2016-09-19 18:27:47 · 2042 阅读 · 0 评论 -
Spark编程技巧
Spark是一种强烈依赖内存的计算框架,结合其运行流程,可以有很多可以调优的地方用reduceByKey 替代groupByKey这两个转换都有shuffle过程发生,且都类似map reduce,但是reduceByKey会在map阶段会对相同的key进行聚合,极大的减少了map产生的数据量,进而减少了shuffle的数据量,提高了程序的执行效率 避免shuffleshuffle类算子会将多原创 2016-09-20 20:00:20 · 1240 阅读 · 0 评论 -
storm开发tips
storm和MapReduce框架是类似的,但在生成数据时,往往是增量更新。因为Trident的出现,开发一套实时数据程序非常方便。本人将介绍小米统计storm开发过程中使用的一些优化点。acker数据设置适中为了保证数据流被正确的消耗,storm通过acker来跟踪各个数据流,并维持各个数据流的应答。acker设置过小,对数据响应会处理不过来。acker设置过大,会消耗比较多的资源。根据需要可以设原创 2017-01-24 10:11:57 · 695 阅读 · 0 评论 -
Spark学习资料
视频DataBricks出品的Spark入门视频(强推): https://www.edx.org/course/introduction-spark-uc-berkeleyx-cs105x https://www.edx.org/course/big-data-analysis-spark-uc-berkeleyx-cs110x原创 2016-09-20 20:28:50 · 1177 阅读 · 0 评论 -
Zookeeper常见问题整理
本文将介绍ZK框架中一些比较常见的问题原创 2015-05-12 21:23:38 · 8921 阅读 · 2 评论 -
Reduce内存不足的解决方案
MapReduce作业运行时,任务可能会失败,报out of memory错误。这个时候可以采用以下几个过程调优简单粗暴: 加大内存哪个阶段报错就增加那个阶段的内存。以reduce阶段为例,map阶段的类似mapreduce.reduce.memory.mb=5120 //设置reduce container的内存大小mapreduce.reduce.java.opts=-Xms2000m -原创 2016-01-27 10:00:06 · 13499 阅读 · 0 评论 -
Paxos领导者选举
Paxos是维护多台节点间数据一致性公认的最好的算法。在维持领导者选择或者变量一致性上,Paxos算法采用一种类似一会投票的过半同意机制,比如设定一个领导者,需要将此看做一个议案,征求过半同意,每个节点通过一个议案还有编号记录,再次收到相同议案的不同人选,发现已有编号记录便驳回,最后以多数通过的结果为准。如果一次投票过程,没有超过一半的节点同意,则重新选举。原创 2014-10-21 16:47:53 · 1453 阅读 · 0 评论 -
A Note on Distributed Computing
分布式计算笔记原创 2015-04-24 16:27:03 · 1704 阅读 · 0 评论 -
Hadoop TaskScheduler浅析
TaskScheduler, 顾名思义,就是MapReduce中的任务调度器。在MapReduce中,JobTracker接收JobClient提交的Job,将它们按 InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务。然后,当一个TaskTracker通过心跳告知 JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务。具体应该分派一转载 2013-09-21 10:06:01 · 1091 阅读 · 0 评论 -
云环境下面向能耗降低的资源负载均衡方法
为降低大规模云数据中心的能量消耗,并在一定程度上实现资源负载均衡,提出一种基于虚拟机迁移的方法LBES。该方法综合考虑多种资源负载情况以及群聚冲突等问题,对虚拟机迁移过程的3 个关键步骤进行分析,给出相应的策略,并在云模拟器中得到实现。实验结果表明,在物理节点负载分布严重不平衡的情况下,该方法比其他算法的性能更优。原创 2014-04-25 18:02:24 · 2343 阅读 · 2 评论 -
集群时间同步
在Hadoop上做实时调度器的实验时,发现一些作业总是被不正常地kill掉。调试过后,发现是集群内从节点和主节点的时间不一致导致的,所以决定将集群的时间给同步了。 百度后发现NTP可以用来同步节点间的时间。百度百科中NTP是这样解释的:Network Time Protocol(NTP)是用来使计算机时间同步化的一种协议,它可以使计算机对其服务器或时钟源(如石英钟,GPS等等)原创 2013-09-21 20:43:38 · 1775 阅读 · 0 评论 -
Google 集群的设计初衷
Google的设计初衷翻译自文章“Web search for a planet: The Google cluster architecture”,该文章介绍了Google集群的框架。 软件可靠性在设计过程中,我们主要从软件角度而非硬件的角度来考虑系统的容错性。我们避开了常用的硬件容错手段,如充足的电力供应,充足的磁盘容量,高性能的硬件等。 副本使原创 2014-02-25 11:02:37 · 1584 阅读 · 0 评论 -
KYLIN生产环境配置
为提升KYLIN存储和查询性能,需要对默认配置进行修改,本文将描述常用的环境配置kylin.propertieskylin.cube.aggrgroup.is-mandatory-only-valid=truekylin.query.timeout-seconds=60kylin.job.allow-empty-segment=false参考生产环境推荐配置原创 2017-11-26 09:19:23 · 1526 阅读 · 0 评论