Cloud Computing&Big Data
文章平均质量分 68
小孩真笨
南理工在读研究生,Hadoop爱好者。熟悉计算机C#/J2EE编程,研究方向为云计算
展开
-
Hadoop的应用场景
其实我们要知道大数据的实质特性:针对增量中海量的结构化,非结构化,半结构数据,在这种情况下,如何快速反复计算挖掘出高效益的市场数据? 带着这个问题渗透到业务中去分析,就知道hadoop需要应用到什么业务场景了!!!如果关系型数据库都能应付的工作还需要hadoop吗? 比如 1.银行的信用卡业务,当你正在刷卡完一笔消费的那一瞬间,假如在你当天消费基础上再消费转载 2015-01-29 17:44:44 · 792 阅读 · 0 评论 -
docker常用命令
docker常用命令 1. 进入docker容器:sudo docker run it insaneworks/centos /bin/bash 使用ctrl+p或者ctrl+q可以进入和退出容器 2. 拉去一个镜像:docker pull insaneworks/centos查看所有的镜像: docker images删除镜像 docker rmi 镜像名创建容器 do原创 2015-09-13 22:45:41 · 447 阅读 · 0 评论 -
搭建Scala开发环境IDEA
软件准备:(1)scala-2.11.7.msi(2)IntelliJIDEA(百度进入IDEA官网即可下载)搭建步骤:一、安装和配置Scala(1)安装Scala:直接双击选择路径后安装,完整安装后退出。(2)配置Scala:·右击“计算机”---“属性”---“高级环境变量配置”---“系统变量”找到“Path”,点击“编辑”,输入Scala包含Bin的路径。如原创 2015-08-25 13:39:02 · 659 阅读 · 0 评论 -
使用Docker部署Spark集群
使用Docker部署Spark集群克隆包含启动脚本的git仓库启动Spark0.8.0集群并切换至Spark Shell环境不带参数运行部署脚本*运行一些小的例子终止集群克隆包含启动脚本的git仓库*git clone -b blogpost git@github.com:amplab/docker-scripts.git当然,在这之前你必须已经配置了Github的SSH密钥认证,如果没原创 2015-08-25 21:55:40 · 1093 阅读 · 0 评论 -
web工程调用hadoop集群1.2
这里主要讲下设计思路:首先进入页面后是一个frame框,上面是固定页面,下面是一个输入页面。输入页面输入要运行hadoop word count程序的输入和输出路径,然后提交路径到servlet A,servlet A中new一个Thread来启动wordcount程序(并初始化Job,这个Job可以在其他地方获取到),然后直接跳转到显示map和reduce进度的页面(第一次跳转的时候附带转载 2015-06-10 14:19:55 · 452 阅读 · 0 评论 -
Hadoop配置机架感知(python脚本)
有些hadoop集群在运行的时候,不完全是绝对平均的分配,不过需要尽可能平均的分配任务,避免某一台或者某几台服务器任务过重,其他服务器无事可做。这个,一方面是需要用到balancer,一个就是机架感知了。通常,balancer是自动启动的。而机架感知则需要单独配置和编写脚本。不过,机架感知,不是说是感知哪个服务器坏了,是根据机架位置的拓扑结构来选取服务器进行任务的权重分配。转载 2015-05-04 16:39:06 · 618 阅读 · 0 评论 -
启动Hadoop集群失败,LiveNode 0
安装好Hadoop集群的NameNode和DataNode,并配置好路径。在终端中输入命令:start-all.sh。,发现出现下面界面:看起来集群似乎已经启动起来了,然而,打开master:50070发现,Live Node为0。多次调试之后发现,系统在一开始确实是启动了。但是随着时间流逝,节点死亡了。(通过jps命令来查看),产生这种问题的原因分析如下:1)防火墙设置问题:==原创 2015-05-04 16:11:57 · 3045 阅读 · 0 评论 -
Win下Eclipse提交Hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied: user=D
描述:在Windows下使用Eclipse进行Hadoop的程序编写,然后Run on hadoop 后,出现如下错误:11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_000311/10/28 16:05:54 INFO mapred.JobClient: map 0% reduce 0%转载 2015-04-21 22:34:58 · 317 阅读 · 0 评论 -
CentOS 设置静态IP 方法
1.修改网卡配置 编辑:vi /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 #描述网卡对应的设备别名,例如ifcfg-eth0的文件中它为eth0 BOOTPROTO=static #设置网卡获得ip地址的方式,可能的选项为static,dhcp或bootp,分别对应静态指定的 ip地址,通过dhcp协议获得的ip转载 2015-04-15 16:22:26 · 438 阅读 · 0 评论 -
利用eclipse管理Hadoop集群文件系统
成功安装Hadoop源代码,并对其进行路径配置和环境配置后,面临如何图形化直观管理Hadoop集群的文件系统,以及如何使用Hadoop集群进行程序开发的问题了。本文着重解决上述两个问题,即使用eclipse插件来配置集群管理的目标。需要准备的软件1. Hadoop0.20系列的源代码,本文使用的是: hadoop-0.20.203.0,使用这个版本考虑到该版本作为稳定版提供使原创 2015-04-17 15:50:20 · 716 阅读 · 0 评论 -
MapReduce 编程模型概述
已经讲了一篇mapreduce编程模型,这里从另外一角度,感觉也不错。引用一个经典的图片来说明问题.可以带着下面问题来阅读:mapreduce的过程都包含什么操作?map处理完后,tasktracer会完成什么任务?ruducer的作用是什么?map中经过谁的处理之后,变为reduce输入?1. 首先, 我们能确定我们有一份输入, 而且他的数据量会很大转载 2015-03-27 18:39:19 · 534 阅读 · 0 评论 -
盘点SQL on Hadoop中用到的主要技术
摘要:自打Hive出现之后,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全。本文不是要去比较所谓“交互式查询哪家强”,而是试图梳理出一个统一的视角,来看看各家系统有哪些技术上相通之处。编者按:自打Hive出现之后,经过几年的发展,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全。本文并不是要去比较所谓“交互式查询哪家强”转载 2015-02-10 22:07:16 · 490 阅读 · 0 评论 -
Hadoop阅读笔记——洞悉Hadoop序列化机制Writable
原文来源:博客园 作者 :大数据 小世界酒,是个好东西,前提要适量。今天参加了公司 的年会,主题就是吃、喝、吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免 一些画面浮现脑海,有郁闷抓狂的,有出成果喜极而涕的,有不知前途在哪儿的迷茫与不安……总的来说,近一年来,不白活,不虚度,感触良多,不是一言两语能 说得转载 2015-02-11 21:47:57 · 608 阅读 · 0 评论 -
编写HDFS程序并运行的步骤
step1用elipse 建立一个新的工程,并命名为ListHDFSstep2右键点击工程,Properties->Java Build Path->Libraries点击Add External JARs,选择在${HADOOP_HOME}上的.jar文件step3新建Class文件,并命名为ListAllFile.java转载 2015-02-09 22:27:24 · 830 阅读 · 0 评论 -
云计算学习笔记更新
从今天起,每天学习一个小时的云计算相关知识,并做一些相关的笔记。每周在博客上不定期更新相关的学习笔记和项目经验。原创 2014-12-31 13:34:42 · 470 阅读 · 0 评论 -
WordCount源码分析
3、WordCount源码分析3.1 特别数据类型介绍Hadoop提供了如下内容的数据类型,这些数据类型都实现了WritableComparable接口,以便用这些类型定义的数据可以被序列化进行网络传输和文件存储,以及进行大小比较。BooleanWritable:标准布尔型数值ByteWritable:单字节数值DoubleWritable:双字节数转载 2015-02-06 09:47:50 · 738 阅读 · 0 评论 -
MapReduce程序执行过程和命令格式
在hadoop中,MapReduce是该平台的计算组件,主要用于分布式计算一些大型的工作。每个工作任务被描述为一个Job。每Job有一个Config类来配置他。MapReduce的执行过程分为Map阶段和Reduce阶段,如果详细划分,可以加上一个中间结果阶段。 在Map阶段,主节点JobTracker将一个Job划分为若干个Tasks,交给计算节点TaskTracker来进行执行。原创 2015-02-06 09:19:58 · 3256 阅读 · 0 评论 -
centos安装hadoop-1.2.1
系统环境:CentOS 5.10(虚拟机下)[plain] view plaincopyprint?[root@localhost hadoop]# lsb_release -a LSB Version: :core-4.0-ia32:core-4.0-noarch:graphics-4.0-ia32:graphics-4.0-noa转载 2015-09-13 22:55:17 · 521 阅读 · 0 评论