Cloud Computing
远有青山
山外青山楼外楼
展开
-
VirtualBox虚拟机网络设置(四种方式)
VirtualBox的提供了四种网络接入模式,它们分别是: 1、NAT 网络地址转换模式(NAT,Network Address Translation) 2、Bridged Adapter 桥接模式 3、Internal 内部网络模式 4、Host-only Adapter 主机模式 第一种 NAT模式 解释: NAT模式是最简单的实现虚拟机上转载 2013-10-31 22:11:15 · 922 阅读 · 0 评论 -
spark所支持的文件格式
spark所支持的文件格式 1.文本文件在 Spark 中读写文本文件很容易。当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为RDD 的 一个元素。也可以将多个完整的文本文件一次性读取为一个 pair RDD, 其中键是文件名,值是文件内容。 在 Scala 中读取一个文本文件12val inpu转载 2017-08-26 15:11:11 · 5468 阅读 · 0 评论 -
Spark程序模型
下面通过一个经典的示例程序来初步了解Spark的计算模型,过程如下。 1)SparkContext中的textFile函数从HDFS读取日志文件,输出变量file。val file=sc.textFile("hdfs://xxx") 2)RDD中的filter函数过滤带“ERROR”的行,输出errors(errors也是一个RDD)。val errors=file.fil转载 2017-08-26 15:29:02 · 610 阅读 · 0 评论 -
Apache Kafka:下一代分布式消息系统
简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。Apache Kafka与传统消息系统相比,有以下不同:它被设计为一个分布式系统,易于向外扩展;它同时为发布和订阅提供高吞吐量;它支持多订阅者,当失败时能自动平衡消费者;它将消转载 2017-08-16 08:51:37 · 270 阅读 · 0 评论 -
kafka学习笔记:知识点整理
一、为什么需要消息系统1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3.扩展性转载 2017-08-16 08:58:44 · 268 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括sp转载 2017-08-16 09:03:35 · 338 阅读 · 0 评论 -
Hive 中SerDe概述
一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。3、Hive可以方便的将数据加载到表中而不需要对数据进行转换,转载 2017-08-28 09:23:25 · 3270 阅读 · 0 评论 -
Spark 学习入门教程
一、环境准备测试环境使用的cdh提供的quickstart vmHadoop版本:2.5.0-cdh5.2.0Spark版本:1.1.0二、Hello Spark将/usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar移动到/usr/lib/spark/lib/转载 2017-08-30 08:33:21 · 573 阅读 · 0 评论 -
Hive2.0函数大全(中文版)
Hive2.0函数大全(中文版)摘要Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数 数学函数Return TypeName (Signatu转载 2017-08-31 15:17:10 · 334 阅读 · 0 评论 -
spark submit参数调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪转载 2017-10-21 17:21:39 · 754 阅读 · 0 评论 -
Spark性能优化指南——基础篇
http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from=timeline&isappinstalled=0#rd Spark性能优化指南——基础篇转载 2017-10-23 15:59:26 · 264 阅读 · 0 评论 -
Hive学习之Metastore及其配置管理
在学习Hive的配置管理参数时,曾将参数分为四类:Hive管理参数、Hive元存储(Metastore)管理参数、与Hadoop交互的管理参数、用于传递运行时信息的参数,当时并没有对Metastore参数进行深入的学习,现在就开始学习这部分的内容。 Hive中表和分区的所有元数据都存储在Hive的元存储(Metastore)中。元数据使用JPOX(Java Persistent O转载 2017-11-06 15:11:44 · 2365 阅读 · 0 评论 -
Hive的数据存储
Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。一、Hive的数据存储在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没转载 2017-08-26 15:01:01 · 19044 阅读 · 1 评论 -
kafka详解:Kafka的设计思想、理念
问题导读1.Kafka有何特性?2.Kafka有哪些组件?背景: 当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战:如何收集这些巨大的信息如何分析它如何及时做到如上两点 以上几个挑战形成了一个业务需求模型,即生产者生产(pro转载 2017-08-14 15:35:00 · 469 阅读 · 0 评论 -
五种主流的虚拟化技术
随着虚拟化技术的窜红,打着它的旗号的“衍生品”层出不穷。然而尽管到现在各种虚拟化技术还没能泾渭分明,但随着时间的发展,五种主流的虚拟化技术逐步展露。这五种虚拟化技术分别是:CPU虚拟化、网络虚拟化、服务器虚拟化、存储虚拟化和应用虚拟化。 虚拟化,曾经是一个技术人员最不喜欢的词,因为对于一个搞工程科学的人来说,实在、量化、数据逻辑才是工作进行的根本。 但是现在,最前沿的IT技术工程师们转载 2017-07-11 17:24:12 · 105030 阅读 · 1 评论 -
云计算4种主流虚拟技术架构对比分析
云计算离不开底层的虚拟化技术支持。维基百科列举的虚拟化技术有超过60种,基于X86(CISC)体系的超过50种,也有基于RISC体系的,其中有4种虚拟化技术是当前最为成熟而且应用最为广泛的,分别是:VMWARE的ESX、微软的Hyper-V、开源的XEN和KVM。云计算平台选用何种虚拟化技术将是云计算建设所要面临的问题,文章就4种主流虚拟化技术的架构层面进行了对比分析。1.前言转载 2017-07-11 17:36:11 · 5198 阅读 · 0 评论 -
数据中心网络虚拟化
【连载-2】数据中心网络虚拟化 主流平台产品介绍fbz_ict• 15-06-23 •4383 人围观为了对数据中心网络虚拟化有个初步的认识,本文将对当前比较主流的几款商业平台进行介绍,包括VMware公司的网络虚拟化技术,IBM公司的Dove及开源的OpenDove平台, NEC公司的virtual-network-platform和VTN平台,以及Cisco公司的N转载 2017-07-11 17:49:12 · 3508 阅读 · 1 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考Hadoop 官方简介。使用和学习过老 Ha转载 2017-07-12 16:08:22 · 247 阅读 · 0 评论 -
Hadoop MapReduce 计算模型分析(一)
Hadoop MapReduce 计算模型分析(一)先简单说一下MapReduce计算模型: 首先这是一个分布式对大数据处理的计算模型。在多个节点上并行处理大数据。在阅读时,你要将自己的思路不断地进行单节点与全局之间的转换。 下面由简到繁,一步步细化MR框架以上就是MR的整个计算模型。输入数据切分成第一次的(K1, V1)的key-value对。经过Map函数处转载 2017-07-12 16:25:22 · 1643 阅读 · 0 评论 -
Kafka剖析(一):Kafka背景及架构介绍
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。背景介绍Kafka创建背景转载 2017-08-11 08:38:55 · 217 阅读 · 0 评论 -
李克华 云计算高级群: 292870151 195907286 交流:Hadoop、NoSQL、分布式、lucene、solr、nutch kafka入门:简介、使用场景、设计原理、主要配置及集群搭
一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例转载 2017-08-11 08:44:44 · 364 阅读 · 0 评论 -
Impala:新一代开源大数据分析引擎
原文发表在《程序员》杂志2013年第8期,略有删改。文 / 耿益锋 陈冠诚 大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础,之后的HBase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中。今天我们就来谈谈Hadoop系统中的一个新成员 –转载 2017-08-18 09:38:21 · 368 阅读 · 0 评论 -
Hive 基础之:分区、桶、Sort Merge Bucket Join
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 jo转载 2017-08-14 09:01:07 · 303 阅读 · 0 评论 -
Hive JOIN使用详解
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ转载 2017-08-14 10:32:05 · 286 阅读 · 1 评论 -
Hive集成Mysql作为元数据
Hive集成Mysql作为元数据默认情况下,Hive元数据保存在内嵌的 Derby 数据库中,只能允许一个会话连接,只适合简单的测试。为了支持多用户多会话,则需要一个独立的元数据库,我们使用 MySQL 作为元数据库,Hive 内部对 MySQL 提供了很好的支持,配置一个独立的元数据库需要增加以下几步骤:第一步:安装MySQL服务器端和MySQL客户端,并启动MySQL服务。此步转载 2017-11-06 16:24:29 · 578 阅读 · 0 评论