2015年05月_xiaohei.info

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 Docker解析及轻量级PaaS平台演练（四）--Fig相关介绍

本篇中将会使用开源工具FigFig是什么？简单的说就是对Docker的封装，从而方便我们构建应用的运行环境它所做的事情是协调Docker上的各个Container之间的联系，并通过服务发现的方式将它们有机的组合成一个完整的系统Fig使用Docker自带的link来实现服务发现，Fig会负责管理link的相关信息Fig通过读取当前目录下的fig.yml文件来创建应用的运行环境在fig.ym

2015-05-31 22:02:52 1176

原创 Docker解析及轻量级PaaS平台演练（三）--Dockerfile编写

在本篇中将介绍Dockerfile的编写除了通过修改Image，创建Container，在打包成Image来创建我们需要的Image之外我们还可以编写Dockerfile文件，通过build来创建我们需要的ImageDockerfile是一个文件名，Docker规定必须是这样子来命名的 Dockerfile放在项目的根目录通过docker build -t {镜像的名字} {项目的路径}

2015-05-31 20:28:30 1501

原创 Docker解析及轻量级PaaS平台演练（二）--Docker的一些简单命令

上一篇中，我们对Docker有了一个基本的了解下面将讨论Docker中Image，Container的相关实际操作Image管理：镜像的命名和版本管理：普通镜像的命名规范 {namespace}/{repository}:{tag}namespace是docker hub的用户名 repository是项目名称，如：Ubuntu，mysql等 tag表示版本信息，例如：cesc/mysql

2015-05-31 19:46:48 1830

原创 Docker解析及轻量级PaaS平台演练（一）--Docker简介与安装

Container技术：传统的虚拟化技术：通过对硬件层模拟，从而实现了能够在一套硬件上面运行多个操作系统，因为通过硬件虚拟化，使得操作系统认为在它之下就是硬件层但是实际情况是这样的：虚拟机中的OS对硬件发出的请求都交给了虚拟的硬件，OS认为指令已经下达了，只要等待硬件返回信息即可，其实OS下面的那层“硬件”是要将指令发送给真正的硬件层来执行的系统级别的虚拟化技术：不同于传统的硬件虚拟化，它不

2015-05-31 19:37:13 4942 1

原创 Spark（十二） -- Spark On Yarn & Spark as a Service & Spark On Tachyon

Spark On Yarn：从0.6.0版本其，就可以在在Yarn上运行Spark 通过Yarn进行统一的资源管理和调度进而可以实现不止Spark，多种处理框架并存工作的场景部署Spark On Yarn的方式其实和Standalone是差不多的，区别就是需要在spark-env.sh中添加一些yarn的环境配置，在提交作业的时候会根据这些配置加载yarn的信息，然后将作业提交到yarn上进行

2015-05-29 22:44:13 2500

原创基于Spark Mllib，SparkSQL的电影推荐系统

本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统，以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下： 1.某电影网站拥有可观的电影资源和用户数，通过各个用户对各个电影的评分，汇总得到了海量的用户-电影-评分数据 2.我在一个电影网站上看了几部电影，并都为其做了评分操作（0-5分） 3.该电影网站的推荐系统根据我对那几部电影的评分，要预测出

2015-05-27 20:46:03 11758 16

原创 Spark（十一） -- Mllib API编程线性回归、KMeans、协同过滤演示

本文测试的Spark版本是1.3.1在使用Spark的机器学习算法库之前，需要先了解Mllib中几个基础的概念和专门用于机器学习的数据类型特征向量Vector：Vector的概念是和数学中的向量是一样的，通俗的看其实就是一个装着Double数据的数组 Vector分为两种，分别是密集型和稀疏型创建方式如下： val array:Array[Double] = ... val vector

2015-05-27 19:33:27 4230

原创 Spark（十） -- Spark Streaming API编程

本文测试的Spark版本是1.3.1Spark Streaming编程模型：第一步：需要一个StreamingContext对象，该对象是Spark Streaming操作的入口，而构建一个StreamingContext对象需要两个参数： 1、SparkConf对象：该对象是配置Spark 程序设置的，例如集群的Master节点，程序名等信息 2、Seconds对象：该对象设置了Str

2015-05-25 19:45:59 3215

原创 Spark（九） -- SparkSQL API编程

Text文本文件测试一个简单的person.txt文件内容为：JChubby,13Looky,14LL,15分别是Name和Age在Idea中新建Object，原始代码如下：object TextFile{ def main(args:Array[String]){ }}SparkSQL编程模型：第一步：需要一个SQLContext对象，该对象是SparkSQL操作的入口

2015-05-24 23:15:21 4738 4

原创 Spark（八） -- 使用Intellij Idea搭建Spark开发环境

Intellij Idea下载地址：官方下载选择右下角的Community Edition版本下载安装即可本文中使用的是windows系统环境为： jdk1.6.0_45 scala2.10.5在网上下载jdk和scala的安装包双击运行安装即可注意：如果之后要将scala文件打包成jar包并在spark集群上运行的话，请确保spark集群和打包操作所在机器环境保持一致！不然运行j

2015-05-24 20:07:58 15565

原创 Spark（七） -- Scala快速入门

Scala作为Spark的开发语言，想要成为Spark高手，精通Scala是必须要走的一条路然后一门语言并不是你想精通就能够精通的，更何况是Scala这种面向对象又面向函数的编程语言，个人觉得其学习的门槛会比C#，Java等面向对象语言要高所以，这篇文章是建立在有一点编程语言知识的基础上的（如学过C#或者Java等），其实所有语言都是大同小异的，学会了一门语言在学其他的就不会像刚开始那么吃力

2015-05-18 22:55:27 15427

原创 Spark（六） -- Spark计算模型

What is RDD？ A Resilient Distributed Dataset(RDD)，分布式弹性数据集，是Spark上的一个核心抽象表示用于并行计算的，不可修改的，对数据集合进行分片的数据结构在Spark上，针对各种各样的计算场景存在着各种各种的RDD，这些RDD拥有一些共同的操作，例如map，filter，persist等，就好像RDDs都是一个总RDD的子类一样，拥有所有

2015-05-17 12:57:00 3040

原创 Spark（五） -- Spark Streaming介绍与基本执行过程

Spark Streaming作为Spark上的四大子框架之一，肩负着实时流计算的重大责任而相对于另外一个当下十分流行的实时流计算处理框架Storm，Spark Streaming有何优点？又有何不足呢？首先，对于Storm实时流处理惊人的低延迟性，Spark Streaming的不足很明显 Storm官方说的最低延迟可以使多少毫秒级别的而Spark Streaming只能做到压秒，也

2015-05-16 20:11:20 2723

以一个简单的WordCount代码为例sc.textFile("hdfs://...").flatMap(_.split(" ")).map(_,1).reduceByKey(_+_).map(x => (x._2,x._1)).sortByKey(false).map(x => (x._2,x._1)).saveAsTextFile("hdfs://....")以上代码的作用是读取指定位置的文件，

2015-05-14 23:38:56 4815

原创 Spark（三） -- Shark与SparkSQL

首先介绍一下Shark的概念 Shark简单的说就是Spark上的Hive，其底层依赖于Hive引擎的但是在Spark平台上，Shark的解析速度是Hive的几多倍它就是Hive在Spark上的体现，并且是升级版，一个强大的数据仓库，并且是兼容Hive语法的下面给出一张来自网上的Shark构架图从图上可以看出，Spark的最底层大部分还是基于HDFS的，Shark中的数据信息等也是对应着H

2015-05-14 21:46:43 6171

原创 Spark（二） -- Spark简单介绍

spark是什么？ spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算拥有Hadoop MapReduce所具有的优点但不同于MapReduce的是Job中间输出和结果可以保存在内存中从而不再需要读写HDFS从上面的官方解释中我们可以得到的信息时，spark是一套并行计算的框架，并且性能要比hadoop的ma

2015-05-11 20:52:16 3144

原创 Spark（一）-- Standalone HA的部署

首先交代一下集群的规模和配置集群有六台机器，均是VM虚拟机，每台256M的内存（原谅楼主物理机硬件不太给力）主机名分别是cloud1~cloud6 每台机器上都装有jdk6,和hadoop-2.2.0 其中cloud4~cloud6上装有zookeeper cloud1为hdfs文件系统的启动节点 cloud3为yarn资源管理的启动节点（注意每台机器都配置好SSH免密码登录，可

2015-05-11 00:16:48 2672