hadoop/impala/spark
葑岚
网络广告的精准推荐,海量数据的分布式计算http://weibo.com/larryspace
展开
-
Hadoop公平调度器指南
Hadoop公平调度器指南http://www.cnblogs.com/spork/archive/2010/04/02/1703428.html 最近看到调度器这一块,发现Hadoop官方文档中有关公平调度器(Fair Scheduler Guide)和容量调度器(Capacity Scheduler Guide)部分的文档还没有汉化,Google了下也未发现有相关汉化,So,转载 2012-02-06 14:29:03 · 746 阅读 · 0 评论 -
hadoop 2.5 伪分布安装
最新的hadoop2.5 安装目录做了一定修改,安装变得稍微简单一点首先安装准备工具 $ sudo apt-get install ssh $ sudo apt-get install rsync配置ssh $ ssh localhostIf you cannot ssh to localhost without a passphrase, execute the原创 2014-09-10 18:04:47 · 4310 阅读 · 1 评论 -
hadoop1.0伪分布安装
安装ssh$ sudo apt-get install ssh $ sudo apt-get install rsync生成密钥用于无密码登陆ssh-keygen -C "larry.lv.word@gmail.com" -t rsacat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod 644 author原创 2012-05-17 19:36:26 · 2369 阅读 · 0 评论 -
海量数据下的分布式存储与计算
亲,转载请保留以下信息@from : http://blog.csdn.net/larrylgq/article/details/7851207@author :吕桂强@email; larry.lv.word@gmail.com存储从理论角度提到大数据存储nosql是不得不提的一个部分,CAP,BASE,ACID这些原理在过去的一些年对其有着一定的指导作用(原创 2012-08-10 14:27:56 · 9571 阅读 · 1 评论 -
Cloudera Impala 安装配置
from : http://blog.csdn.net/larrylgq/article/details/8199147前提条件:impala1.0beta目前只支持RHEL/CentOS6.2.安装集群:主机名master,slave1 2台机器,配置服务器时间同步:sudo yum install ntpcp /usr/share/zoneinfo/Asia/S原创 2012-11-19 13:48:29 · 9512 阅读 · 0 评论 -
Cloudera impala 介绍
Cloudera impala™ 直接在你的HDFS或HBase上提供快速、交互式SQL查询.impala 除了使用统一的存储平台,还是用了与hive相同的 Metastore ,SQL 语法 (Hive SQL),ODBC driver 和 user interface Hue Beeswax (Hive)。这些为批处理和实时查询提供了一个统一的常见的平台。Cloudera Im翻译 2012-11-14 14:26:33 · 5366 阅读 · 0 评论 -
cloudera impala 源码编译
cloudera impala 是一个运行在HDFS 和 HBase 上的执行分布式查询的引擎。该源是我们内部开发版本的一个快照,我们会定期进行版本更新。这个README文档描述了怎样利用该源来构建Cloudera impala,更多的文档请看这里:https://ccp.cloudera.com/display/IMPALA10BETADOC/Cloudera+Impala+1.0+翻译 2012-11-13 19:51:35 · 5638 阅读 · 1 评论 -
hadoop常见错误
1:org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Can't continue with getBlockLocalPathInfo() authorization. The user admin is not allowed to ca原创 2012-09-09 16:19:22 · 4348 阅读 · 1 评论 -
hadoop与storm的一点区别
本文由larrylgq编写,转载请注明出处:http://blog.csdn.net/larrylgq/article/details/7326058作者:吕桂强邮箱:larry.lv.word@gmail.comhadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中原创 2012-03-06 19:26:55 · 10567 阅读 · 2 评论 -
hadoop二次排序
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import or原创 2012-05-21 17:13:03 · 3538 阅读 · 0 评论 -
hadoop map端reduce端调优参数
map端:io.sort.mb 类型int默认100=》map的内存缓冲区io.sort.record.precent 类型:float默认0.05=》io.sort.mb的缓存区记录索引kvindices和缓存区记录索引排序工作数组kvoffsets占用空间比例io.sort.spill.percent 类型:float默认0.8=》io.sort.mb的缓冲数据边界阙值原创 2012-05-21 12:18:20 · 4179 阅读 · 0 评论 -
hadoop 创建用户及hdfs权限,hdfs操作等常用shell命令
sudo addgroup hadoop#添加一个hadoop组sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组sudo gedit etc/sudoers#将hadoop组加入到sudoer在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL修改hadoop目录的权限sudo chown -R原创 2012-05-18 17:16:48 · 40542 阅读 · 0 评论 -
hadoop mapreduce核心功能描述
核心功能描述应用程序通常会通过提供map和reduce来实现 Mapper和Reducer接口,它们组成作业的核心。MapperMapper将输入键值对(key/value pair)映射到一组中间格式的键值对集合。Map是一类将输入记录集转换为中间格式记录集的独立任务。 这种转换的中间格式记录集不需要与输入记录集的类型一致。一个给定的输入键值对可以映射成0个或翻译 2012-05-18 19:34:36 · 3733 阅读 · 0 评论 -
深入理解云存储和云计算-理论基础
引言:在各种各样的硬件设备上运行着N多的worker,而任意一个worker都能够独立解决一个问题。每一个集群有这样的设备成千上百个,而同时又有一打这样的集群互相连接交互,于是,这么一个总的集合称为“云”,而其提供的服务称为“云计算”。 在“云中”的任一设备或集群都可以做到"进出自由"、任何崩溃的worker都能被检测和重启,那么,基本上就可以称为靠谱的云计算了。 对于理解云存原创 2012-02-21 13:59:27 · 1547 阅读 · 0 评论 -
深入理解云存储和云计算-I/O负载导致的分布式面临的问题
分布式是为了通过横向扩展来提高性能,扩展的原因一般有2个:CPU负载和I/O负载(计算密集型和io密集型)所谓CPU负载就是通常的web服务等,这些服务基本上只消耗cpu,所以只要增加安装相同服务的服务器,然后就可已通过负载均衡器工作了,但是i/o负载因为需要进行数据分割,所以会远比cpu负载来的复杂大多的i/o分布式框架都在解决下面几个问题:1.数据的切割和在机器间的分配策略原创 2012-02-21 14:53:11 · 1370 阅读 · 0 评论 -
深入理解云存储和云计算-hdfs设计原则
在hadoop整个框架中hdfs是基础,hdfs提供海量的非结构化的数据存储,并提供了文件的创建删除读取和写入等API,对开发者而言只需操作一个目录构成的树形结构。hdfs在设计之初考虑到了以下几个方面:1,hdfs将采用大量稳定性差的廉价pc来做为文件存储设备,所以pc发生死机或硬盘故障的几率极高,应看作是常态,所以hdfs应该提供数据多备份,自动检测节点存活,和故障机器的自动修复2原创 2012-02-21 15:31:34 · 1866 阅读 · 0 评论 -
深入理解云存储和云计算-数据模型及实现方式
常见的数据模型有key/value和Schema Free(自由列表模式)两种,key/value,每条记录由2个域组成,一个作为主键,一个存储记录的数据Schema Free, 每条记录有一个主键,若干条列组成,有点类似关系型数据库在实现这些模型的时候基本使用2种实现方式:哈希加链表,或者B+树的方式哈希加链表:通过将key进行哈希来确定存储位置,相同哈希值的数据原创 2012-02-21 14:35:45 · 1235 阅读 · 1 评论 -
hadoop集群配置
官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html)转自http://blog.csdn.net/hguisu/article/details/72373951 先决条件确保在你集群中的每个节点上都安装了所有必需软件:sun-JDK ,ssh,HadoopJavaTM1.5.转载 2012-02-08 22:44:25 · 771 阅读 · 0 评论 -
单机基于docker搭建hadoop2.7.1 spark1.7 高可用集群
获取ubuntu镜像sudo docker pull ubuntu分别下载 spark1.7 hadoop2.7.1 scala1.1 zookeeper3.4.6 jdk1.8 解压后放置本地文件夹用于挂载到容器中并在文件夹下创建文件authorized_keyshosts本例目录使用/home/docker/config启动容器sudo docker原创 2015-09-25 11:47:38 · 2981 阅读 · 0 评论