2015年07月_moonpure

12月 09月 08月 07月 06月 05月 04月 03月 01月

转载 SparkR安装

http://blog.sina.com.cn/s/blog_4ac9f56e0102w6hc.html期望spark能让R 的迭代循环快一点，在测试环境装了sparkr1）安装spark：下载了1.1.0的spark , Scala 2.10.5, 很容易。可参考：http://blog.csdn.net/jediael_lu/article/details/45310

2015-07-31 18:01:58 885

转载使用sbt创建scala项目

SBT安装使用　　SBT支持Windows和Linux、Mac等操作系统下载　　官方网站：http://www.scala-sbt.org/　　wget https://dl.bintray.com/sbt/native-packages/sbt/0.13.6/sbt-0.13.6.tgz安装　　解压下载包，把sbt/bin放到环境变量PATH下便可。　　通常先添加环境

2015-07-31 16:43:15 813

转载 sparkR介绍及安装

parkR是AMPLab发布的一个R开发包，为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集（RDD）的API，用户可以在集群上通过R shell交互性的运行job。例如，我们可以在HDFS上读取或写入文件，也可以使用 lapply 来定义对应每一个RDD元素的运算。[Bash shell] 纯文本查看复制代码01sc 02lines

2015-07-30 20:34:26 1055 1

转载在CentOS 6.0 安装R语言

另有一篇5.5下安装http://blog.livedoor.jp/extension/archives/50249503.html ，不过我没成功（～！～）R语言是主要用于统计分析、绘图的语言和操作环境。官方网站：http://www.r-project.org/Windows下面有直接的安装包，直接下载安装很方便，但是对于刚出的CentOS6.0上不能直接通过yum 安

2015-07-30 17:48:51 375

转载 Spark开发环境的配置

软件版本：Spark 0.9配置Spark开发环境，其实分为三个层次，一种是针对运维人员，把Spark安装部署到集群；一种是针对普通开发者，引入Spark的jar包，调用Spark提供的接口，编写分布式程序，写好后编译成jar，就可以提交到Spark集群去运行了；第三种是针对Spark开发者，为了给Spark贡献代码，需要git clone Spark的代码，然后导入IDE，为Spark开

2015-07-29 20:46:06 1925

转载 Spark学习笔记-安装部署与运行实例

先解压scala，本次选用版本scala-2.11.1[hadoop@centos software]$ tar -xzvf scala-2.11.1.tgz[hadoop@centos software]$ su -[root@centos ~]# vi /etc/profile添加如下内容：SCALA_HOME=/home/hadoop/software

2015-07-28 19:39:34 377

转载 Spark部署与开发环境搭建jjar运行

http://www.cnblogs.com/datahunter/p/4002331.html1. 安装JDK　　解压jdk安装包到/usr/lib目录：1 sudo cp jdk-7u67-linux-x64.gz /usr/lib2 cd /usr/lib3 sudo tar -xvzf jdk-7u67-linux-x64.gz4 sudo gedit /

2015-07-28 18:18:11 978

原创 IDEA开发Spark1应用程序

http://blog.csdn.net/book_mmicky/article/details/25714549之所以写本篇是因为后面很多博客需要例程来解析或说明。本篇是Spark1.0.0 开发环境快速搭建中关于客户端IDE部分的内容，将具体描述：如何安装scala开发插件如何创建项目和配置项目属性如何编写源代码如何将生成的程序包至于如何运行程序包，

2015-07-27 10:35:17 326

转载 storm网上中文资料搜集大全

http://blog.csdn.net/comaple/article/details/7970714 其实，如果英文还算可以的话建议直接去看官方的英文文档。storm关键概念和这个相对应的这里有一篇我觉得翻译不错的文章storm关键概念中文我会为大家找一些中文方面的资料，以便于storm的理解和让更多人来尝试着使用storm这个优秀的实时流计算框架。storm概念的一些

2015-07-26 17:26:56 301

转载 jzmq安装

http://ja5on.blog.51cto.com/8521911/14240531、jzmq的按抓需要java环境，所以先下载jdk并安装，设置java环境变量 #rpm -ivh jdk-7u45-linux-i586.rpm#vi /etc/profileJAVA_HOME=/usr/java/jdk1.7.0_45CLASSPATH=$JAV

2015-07-25 17:15:03 2645

转载 Storm伪分布式安装

http://bit1129.iteye.com/blog/2170448Storm运行依赖于如下软件ZeroMQJzMQZookeeperPythongcc编译环境本文在Centos7上对Storm进行伪分布式安装，首先安装依赖的软件安装Python和gccCentos7已经默认安装Python，在终端可以直接使用python命令查看版本

2015-07-25 09:45:58 1041

转载 Spark 伪分布式 & 全分布式安装指南

Spark 伪分布式 & 全分布式安装指南发表于4个月前(2015-04-02 03:58) 阅读（3891） | 评论（5）156人收藏此文章,我要收藏赞6目录[-]0、前言1、安装环境2、伪分布式安装2.1 解压缩、配置环境变量即可2.2 让配置生效2.3 启动spark2.4 两种模式运行Spark例子程序2.4.1 Spark-shell2.4.2

2015-07-23 15:40:55 1871

转载构建Spark的IDE开发环境

http://book.51cto.com/art/201408/448480.htmhttp://book.51cto.com/art/201408/448416.htm第三步：构建Spark的IDE开发环境（1）Step 1：目前世界上Spark首选的InteIIiJ IDE开发工具是IDEA,我们下载InteIIiJ IDEA: 这里下

2015-07-23 04:03:58 883

转载 Flume环境部署和配置详解及案例大全

flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。　　一、什么是Flume?　　flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 F

2015-07-22 13:36:51 777

转载安装和使用flume1.5传输数据(日志)到hadoop2.2

http://www.aboutyun.com一、认识flume1.flume是什么？这里简单介绍一下，它是Cloudera的一个产品2.flume是干什么的？收集日志的3.flume如何搜集日志？我们把flume比作情报人员（1）搜集信息（2）获取记忆信息（3）传递报告间谍信息flume是怎么完成上面三件事情的，三个组件：source：搜集信息c

2015-07-22 11:43:26 597

转载利用Eclipse构建Spark集成开发环境

http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/前一篇文章“Apache Spark学习：将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包，而本文则在此基础上，介绍如何利用Eclipse构建Spark集成开发环境。不建议大家使用ec

2015-07-22 11:18:37 397

转载高性能并行计算引擎Storm和Spark比较

对Spark、Storm以及Spark Streaming引擎的简明扼要、深入浅出的比较，原文发表于踏得网。Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop map/reduce非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法（

2015-07-22 10:28:21 385

转载 MapReduce 程序模板（采用新/旧API）

最近在学习MapReduce编程，在仔细阅读了《Hadoop in Action》和《Hadoop: The Definitive Guide》两本书后，终于成功运行了一个自己写的MapReduce程序。 MapReduce程序一般都是在一个模板上进行修改拓展的，所以我这里将MapReduce模板贴出来。还有一个关键点： MapReduce的API在hadoop-0

2015-07-21 11:31:42 344

转载 Eclipse下运行Hadoop测试WordCount

大数据，分布式近年来被炒得非常热，而Hadoop作为一种开源的分布式平台也越来越受人关注，其热度从CSDN的主页上的曝光率就可知一二。我最早接触Hadoop是在大二的时候，听香港理工的曹建农教授介绍Hadoop这个开源的新武器，当时来蹭讲座的我怎么也不会想到两年后我要用这个平台做我的毕业设计。上学期在做课程设计的时候的大胆挑战了分布式这个课题，然后选择了Hadoop这个平台，实现了一个7节点的d

2015-07-21 11:30:19 2133

转载 Eclipse编译运行MapReduce程序 Hadoop

方法行，但代码如是2.0请修改准备工作安装好 Eclipse，可在 Ubuntu 软件中心直接搜索安装。在左侧任务栏，点击“Ubuntu软件中心”。Ubuntu软件中心在右上角搜索栏中搜索 eclipse，在搜索结果中单击 eclipse，并点击安装。安装Eclipse如此，就完成了 eclipse 的安装。Eclipse 的默认安装

2015-07-21 11:24:57 723

转载 demo程序WordCount

最近在学习云计算，研究Haddop框架，费了一整天时间将Hadoop在Linux下完全运行起来，看到官方的map-reduce的demo程序WordCount，仔细研究了一下，算做入门了。运行方法：假设：/home/cq/wordcount/input - 是 HDFS 中的输入路径/home/cq/wordcount/output - 是 HDFS 中的输出路径用示例文

2015-07-21 11:20:04 266

转载 eclipse下开发hadoop程序配置（二）

1、安装hadoop eclipse插件，如果eclipse版本在3.5以上，需要重新编译eclipse插件（参见window环境，eclipse下开发hadoop程序配置（一）帖子）。 2、配置hadoop插件，设定相应属性（在第五周视频里有具体说明，这里我贴一些图再说明一下）： 1）、安装后如下图：

2015-07-20 17:51:05 307

转载 Eclipse 连接 Hadoop 开发环境

安装配置：① 解压下载的SpringSource Tool到D:\\STS，将hadoop-eclipse-plugin-0.20.3-SNAPSHOT放到：D:\STS\sts-2.9.1.RELEASE\plugins② 点击STS.exe，启动SpringSource Tool(一下简称Eclipse)，如果在Project Explorer中出现DFS Locations图

2015-07-20 17:25:20 2789

转载 hadoop2.7【单节点】单机、伪分布、分布式安装指导

http://www.aboutyun.com/thread-12798-1-1.htmlhadoop2.7发布，这一版不太适合用于生产环境，但是并不影响学习：由于hadoop安装方式有三种，并且三种安装方式都可以在前面的基础上继续配置，分别是：本地模式伪分布分布式###########################################

2015-07-15 10:49:22 483

原创编译安装 gcc

1、下载gcc 源码包：http://mirror.hust.edu.cn/gnu/gcc/2、解压：tar -jxvf .bz2tar -zxvf .gz3、下载编译所需的依赖包：这个步骤有两种方式完成：a) 如果Linux有网络连接，直接这样：cd gcc解压目录./contrib/download_prerequis

2015-07-06 08:50:43 475

转载【零基础】CentOS 7 64位系统下编译Hadoop2.7.0

http://so.dupan123.com/?a=url&k=38dddcfc&u=aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSm95NTgwNjE2NzgvYXJ0aWNsZS9kZXRhaWxzLzQ1NzQ2ODQ3&t=44CQ6Zu25Z!656GA44CRQ2VudE9TIDcgNjTkvY3ns7vnu5@kuIvnvJbor5FIYWRvb3AyLjcuMCAtIE

2015-07-05 17:07:43 491

转载 CentOS下Hadoop伪分布模式安装笔记

CentOS下Hadoop伪分布模式安装笔记一. 前言 Hadoop 伪分布式模式是在单机上模拟 Hadoop分布式，单机上的分布式并不是真正的伪分布式，而是使用线程模拟分布式。Hadoop本身是无法区分伪分布式和分布式的，两种配置也很相似，唯一不同的地方是伪分布式是在单机器上配置，数据节点和名字节点均是一个机器。现在很多初学者根本不具备搭建完全分布式集群的硬件环境，大

2015-07-03 11:12:10 529