大数据技术
文章平均质量分 71
wgxiaoyong
这个作者很懒,什么都没留下…
展开
-
Cluster-hadoop集群搭建
1.YARN的基础架构是什么?2.哪一进程防止Yarn早就web攻击?3.Zookeeper主进程是哪个?4.如何下载cdh包?本文搭建Hadoop CDH5.0.1 分布式系统,包括NameNode ,ResourceManger HA,忽略了Web Application Proxy 和Job HistoryServer。一概述(一)HDFS转载 2015-01-25 20:57:35 · 1014 阅读 · 0 评论 -
hadoop datanode 重新启动和hbase regionserver重新启动
我自己有了个集群,现在datanode 宕机了. datanode通过 ssh ccc "/home/hadoop/bin/hadoop-daemon.sh start datanode"ssh ccc "/home/hadoop/bin/hadoop-daemon.sh start tasktracker" 重起后, 那么在datanode上的hbase如何重起?我自己有了个集群,现在d转载 2015-01-20 16:05:40 · 963 阅读 · 0 评论 -
hbase 学习梳理
一、HBASE简介HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统"。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop转载 2015-01-15 23:00:15 · 367 阅读 · 0 评论 -
安装cloudera-manager
安装cloudera-managerssh免密码登陆在crxy210上ssh-keygen -t rsa;cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys; 免密码相互登陆本在crxy210-215上面分别rm –f ~/.ssh/* ssh-keygen -t rsa转载 2015-01-15 22:52:42 · 1041 阅读 · 0 评论 -
eclipse与Hadoop集群连接
eclipse与Hadoop集群连接2014年11月24日 ⁄hadoop ⁄ 暂无评论Eclipse的Hadoop插件参考:http://blog.csdn.net/cybercode/article/details/7084603http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.html转载 2015-01-15 22:47:07 · 640 阅读 · 1 评论 -
使用sqoop做Mysql与Hive数据互倒操作
sqoop是干吗的,就不在这里浪费笔墨了,这里主要讲下一个新手接触到sqoop碰到的问题。一 业务场景 Hive 查询Hql的结果进入MySql,目前本人是通过两步来实现的,1 把hive查询结果直接进入Hive的表a(a表需要创建,结构需要和b一样)2 通过sqoop把表a的内容导入到MySql表b(b表已经存在),这个时候你需要现在hive上创建a表,假如b表字段很多,你需要原创 2015-01-15 22:12:42 · 436 阅读 · 0 评论 -
sqoop安装与使用
Sqoop的安装与使用2013年08月12日 ⁄hadoop及周边, sqoop ⁄ 评论数 4Sqoop是一个转换工具,用于在关系型数据库与HDFS之间进行数据转换。强大功能见下图以下操作就是使用sqoop在mysql和hdfs之间转换数据。1.安装我们使用的版本是sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz,打算安装在/usr原创 2015-01-15 22:16:48 · 430 阅读 · 0 评论 -
Clouder CDH Hadoop安装
1、先保证你的yum源是最新可用的,这样可以省好多事,例如pax, patch, python-setuptools都会被CDH3组件依赖。2、安装jdk, jre。 但对非RPM版本的不认,在安装CDH3的时候会提示缺少sun-java6。安装rpm包后可继续,但我想会有解决办法,如果哪位有答案请留言,万分感谢!3、添加cloudera的yum源,当然你是专业的系统工程师且很有闲转载 2015-01-12 22:44:21 · 424 阅读 · 0 评论 -
NoSQL】NoSQL入门级资料整理(CAP原理、最终一致性)
传统关系型数据库面临的挑战l High Performance——对数据库高并发读写的需求l Huge Storage——对海量数据的高效率存储的需求l High Scalability & High Availablity——对数据库的高可扩展性和高可用性的需求。 对于当前的很多网站来说,关系数据库的很多主要特性往往无用武之地,例如:l 数据库事务一致性需求很多系统并转载 2015-01-12 22:46:26 · 576 阅读 · 0 评论 -
CentOS-5.9系统下Ganglia-3.6.0监控集群安装配置实践
CentOS-5.9系统下Ganglia-3.6.0监控集群安装配置实践Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。Ganglia集群主要用来监控系统性能,它由RRDTool工具处理数据,并生成相应的监控相关的图形,并提供一个Web控制台来直观地提供给客户端,管理员可以通过丰富转载 2015-01-12 22:34:22 · 491 阅读 · 0 评论 -
map join的与Reduce Join效率对比
MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多使用一个表测试,该表时5分钟表,数据很少,大概60多w。测试日志里包含多个字段,其中有uid和uip。测试场景为给出2个uid,取uid共同的uip。三个不同uidselect /*+转载 2015-01-12 22:30:51 · 1109 阅读 · 0 评论 -
什么是Oozie?
首先本人以前还真不知道Oozie这个东东,经别人说才知道,所以感觉也是比较惭愧。毕竟正在做的项目DIP-DATA-ANALYZE与这个有些共同处,就是提供类似工作流的机制更好的调度任务。不过Oozie支持的更多,支持了pig,直接mr,streaming。我们目前是基于hive的,当然也可以支持streaming,mr,不过目前还没有。 另外一个不同是Oozie使用自定义的xml转载 2015-01-12 23:07:23 · 759 阅读 · 0 评论 -
Hadoop-2.3.0-cdh5.0.0获取源码及编译
1、安装Maven首先下载Maven软件包,下载地址为:http://apache.fayea.com/apache-m ... en-3.1.1-bin.tar.gz百度网盘:apache-maven-3.2.1.zip链接:http://pan.baidu.com/s/1jG9QhWa 密码:vmee下载后解压,设置MAVEN_HOME和PATH变量。设置好后,转载 2015-01-25 21:05:55 · 596 阅读 · 0 评论