hadoop
文章平均质量分 81
yakcy
学无止境!
展开
-
淘宝在hbase中的应用和优化
本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。目 录 [ - ]前言原因应用情况部署、运维和监控测试与发布改进和优化将来计划前言hbase是从 hadoop中分离出来的apache顶级开源项目。由原创 2014-05-28 16:54:48 · 1424 阅读 · 0 评论 -
sqoop安装及数据迁移
sqoop安装及数据迁移下载sqoop[root@localhost download]# wget http://cloud.github.com/downloads/cloudera/sqoop/sqoop-1.3.0.tar.gz wget http://labs.mop.com/apache-mirror//incubator/sqoop/stable/sq转载 2014-06-11 14:50:02 · 1296 阅读 · 0 评论 -
使用sqoop将MySQL数据库中的数据导入Hbase
使用sqoop将MySQL数据库中的数据导入Hbase前提:安装好 sqoop、hbase。下载jbdc驱动:mysql-connector-java-5.1.10.jar将 mysql-connector-java-5.1.10.jar 复制到 /usr/lib/sqoop/lib/ 下MySQL导入HBase命令:sqoop import --connect j原创 2014-06-05 14:59:43 · 1525 阅读 · 0 评论 -
关系型数据库与HBase的数据储存方式区别
如今Bigtable型(列族)数据库应用越来越广,功能也很强大。但是很多人还是把它当做关系型数据库在使用,用原来关系型数据库的思维建表、存储、查询。本文以hbase举例讲述数据模式的变化。传统关系型数据库(mysql,oracle)数据存储方式主要如下:图一上图是个很典型的数据储存方式,我把每条记录分成3部分:主键、记录属性、索引字段。我们会对索引字段建立索引,达到二级索引原创 2014-05-21 16:55:27 · 5776 阅读 · 1 评论 -
hbase是否能取代mysql
代志远早年就职网易研究院从事MapReduce与DFS系统的自主研发,后加入支付宝数据平台负责Hadoop与HBase体系的架构设计与二次研发,支付宝流计算与分布式搜索系统的设计和研发,后成为支付宝海量计算体系架构师兼支付宝三代架构成员。现就转战于阿里巴巴集团-CDO-海量数据部门,负责创新性项目的研究和跟进,目前专注于Google第二代数据库产品MegaStore的研究和在阿里的落地。在原创 2014-05-20 14:55:00 · 7198 阅读 · 3 评论 -
Hive sql 语法解读
一、 创建表 在官方的wiki里,example是这样的:Sql代码 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITION原创 2014-05-13 17:28:06 · 1005 阅读 · 0 评论 -
hive-0.10.0-cdh4.3.0安装
1.我使用的Hadoop2.0-cdh4.3.0,对应hive配套版本hive-0.10.0-cdh4.3.0。 2.修改hive/conf下hive-site.xml文件,无则创建hive-site.xml,在底部添加如下内容: [html] view plaincopyxml version="1.0" encoding="UTF-8"原创 2014-05-13 10:54:06 · 1313 阅读 · 0 评论 -
Hive常用命令
创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样hive> create table n原创 2014-05-13 17:32:39 · 1608 阅读 · 0 评论 -
安装HBase 0.94.6-cdh4.3.0
安装HBase 0.94.6-cdh4.3.0设定HBase的配置文件,由于安装的是cdh版,各版本直接匹配,互相依赖的jar包也都正确,只需要配置下hbase的环境变量和配置文件即可。1.配置hbase-env.sh,添加JAVA_HOME环境变量[html] view plaincopyexport JAVA_HOME=/us原创 2014-05-12 15:36:34 · 1366 阅读 · 0 评论 -
Hbase在数据统计中的应用心得
1. 数据统计的需求互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。网站站点统计工具无外乎有以下一些功能:1)网站流量统计:包括PV、UV、IP等指标,这些统计指标可以以趋势图的形式展示出来,如最近一周、最近一个月等。2)IP来源信息统计:记录各个来源IP下的访问PV原创 2014-05-29 17:33:56 · 1581 阅读 · 0 评论 -
Impala与Hive的比较
1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS原创 2014-06-16 11:57:11 · 1489 阅读 · 0 评论 -
Hadoop 安全机制认证---Kerberos
1. 背景在Hadoop1.0.0或者CDH3 版本之前, hadoop并不存在安全认证一说。默认集群内所有的节点都是可靠的,值得信赖的。用户与HDFS或者M/R进行交互时并不需要进行验证。导致存在恶意用户伪装成真正的用户或者服务器入侵到hadoop集群上,恶意的提交作业,修改JobTracker状态,篡改HDFS上的数据,伪装成NameNode 或者TaskTracker接受任务等。 尽原创 2014-02-27 16:38:28 · 2243 阅读 · 0 评论 -
Hbase属性说明及与关系型数据库区别
1. HBase有哪些基本的特征?2. HBase相对于关系数据库能解决的问题是什么?3. HBase的数据模型是什么?如何表述?有哪些操作形式?4. HBase的模式Schema设计的一些概念和原则5. HBase的拓扑结构是什么样的?6. HBase与Cassender的比较?1. HBase有哪些基本的特征?HBase是类似转载 2015-09-22 21:53:55 · 9602 阅读 · 0 评论 -
MapReduce工作原理详解
前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了、学了很多东西,收获颇丰。可是开学后,大家都忙各自的事情,云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧,也希望有更多优秀的文章出炉。汤帅,亮仔,谢总•••搞起来啊!呵呵,下面我们进入正题,转载 2015-03-21 23:15:00 · 601 阅读 · 0 评论 -
Hadoop-thrift介绍及应用
一、概述hadoop是目前使用比较多的分布式文件系统,由于hadoop是用Java写的,对非Java程序人员,不好直接使用它的接口,不过它提供了thrift接口服务器,因此也可以采用其他语言来编写hadoop的客户端,本文主要介绍的是它C++客户端的使用。目前hadoop稳定版是1.2.1,thrift接口文件位于/src/contrib/thriftfs/if/hadoopfs.thri转载 2015-01-15 14:02:09 · 805 阅读 · 0 评论 -
hadoop的使用命令
启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打原创 2013-09-09 09:43:20 · 1706 阅读 · 0 评论 -
安装ambari部署hadoop集群
2014-07-12 15:46 96人阅读 评论(1)收藏 举报ambari目录(?)[-]Step 1 获得相关源码Step 2 配置安装包文件安装 Ambari启动 Ambari需要说明一下,这里安装的ambari是支持hadoop 1.2.1版本的,而对于比较流行的新版本,比如2.0,你需要下载新的源码包.不过总的来说,安转载 2014-09-05 14:05:04 · 1372 阅读 · 0 评论 -
Cloudera impala简介及安装详解
一、Impala简介Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。二、Impala安装1.安装要求原创 2014-07-30 09:57:43 · 4063 阅读 · 0 评论 -
Hadoop Hive sql 语法详解
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言原创 2014-06-18 16:10:52 · 1112 阅读 · 0 评论 -
Hadoop生态系统学习路线
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风起云转载 2014-06-17 09:38:04 · 3997 阅读 · 7 评论 -
Hbase常用命令
hbase shell命令的使用再使用hbase 命令之前先检查一下hbase是否运行正常hadoop@Master:/usr/hbase/bin$ jps2640 HMaster27170 NameNode27533 SecondaryNameNode3038 Jps27795 TaskTracker27351 DataNode2574 HQuorumPeer原创 2014-05-12 15:28:11 · 1251 阅读 · 0 评论 -
非结构化数据的存储与查询
当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询。使得如今的 关系数据库存储带来了巨大的挑战。分布存储技术是云计算的基础,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战[1]。原创 2014-05-15 14:18:35 · 20121 阅读 · 0 评论 -
Hadoop配置文件参数说明
1 获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到原创 2014-01-10 17:42:53 · 2101 阅读 · 0 评论 -
Hadoop 2.0 NameNode HA和Federation实践
一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直到Apache Hadoop在2012年5月发布了2.0的alpha版本,其中MRv2还很不成熟,可HDFS的新功能已经基本可用,尤其是其中的的High Availability原创 2014-01-07 11:42:09 · 2331 阅读 · 0 评论 -
hadoop应用案例的分析:在百度中的应用
hadoop实现云计算的典型案例原创 2013-11-22 10:14:30 · 1730 阅读 · 0 评论 -
Hadoop2.0.0-CDH4.3.0的部署包的文件结构
我是以hadoop-2.0.0-cdh4.3.0为例,相比以前的一些版本目录结构下发生很大变化:1、现在的结构比以前的要稍微复杂一些了,如下:[bigdata@Master1 hadoop-2.0.0-cdh4.3.0]$ ls -d bin/ cloudera/ etc/ examples/ include/ lib/ libexec/ sbin/ share原创 2013-12-02 10:34:05 · 1579 阅读 · 1 评论 -
Hadoop常见错误及解决办法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/security/limits.转载 2013-11-25 09:52:50 · 4151 阅读 · 0 评论 -
hadoop深入了解
深入了解hadoop http://www.blogjava.net/killme2008/archive/2008/06/05/206043.html 一、前提和设计目标 1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,原创 2013-10-16 14:11:00 · 890 阅读 · 0 评论 -
linux下实现ssh无密码验证登陆
ssh配置 主机A:10.0.5.199主机B:10.0.5.198 需要配置主机A无密码登录主机A,主机B先确保所有主机的防火墙处于关闭状态。在主机A上执行如下: 1. $cd ~/.ssh 2. $ssh-keygen -t rsa --------------------然后一直按回车键,就会按照默认的选原创 2013-11-05 18:05:09 · 2532 阅读 · 1 评论 -
hadoop集群管理之SecondaryNameNode与NameNode
光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其 实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。对于hadoop进程中 ,要配置好并正确的使用 sn原创 2013-10-18 15:25:44 · 1468 阅读 · 0 评论 -
10个Hadoop的应用场景
摘要: 本文介绍了10个Hadoop的应用场景,其实Hadoop的应用场景远不止广告数据分析和搜索引擎,深入挖掘的话你会发现Hadoop能够在许多地方发挥巨大的作用。 谁在用Hadoop这是个问题。在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是Hadoop的最大用户呢?首先想到的当然是它的“发源地”,像Goo原创 2013-09-22 14:38:32 · 3351 阅读 · 1 评论 -
Hadoop 安全机制认证---Kerberos
1. 背景在Hadoop1.0.0或者CDH3 版本之前, hadoop并不存在安全认证一说。默认集群内所有的节点都是可靠的,值得信赖的。用户与HDFS或者M/R进行交互时并不需要进行验证。导致存在恶意用户伪装成真正的用户或者服务器入侵到hadoop集群上,恶意的提交作业,修改JobTracker状态,篡改HDFS上的数据,伪装成NameNode 或者TaskTracker接受任务等。 尽原创 2014-01-10 15:10:11 · 1556 阅读 · 0 评论 -
数据导入HBase最常用的三种方式及实践分析
数据导入HBase最常用的三种方式及实践分析 摘要:要使用Hadoop,需要将现有的各种类型的数据库或数据文件中的数据导入HBase。一般而言,有三种常见方式:使用HBase的API中的Put方法,使用HBase 的bulk load工具和使用定制的MapReduce Job方式。本文均有详细描述。 【编者按】要使用Hadoop,数据合并至原创 2014-05-15 12:58:08 · 1194 阅读 · 0 评论 -
fuse挂载hadoop2.0.0文件系统hdfs到本地(关于libhdfs和fuse-dfs的编译)
一、环境配置 1.主机系统:RedHat Enterprise Linux 6.1 (X86_64) Hadoop版本:hadoop-2.0.0-cdh4.3.0 JDK的版本:jdk1.6.0_45 Ant的版本:apache-ant-1.8.2 Mave原创 2013-09-18 17:33:58 · 4643 阅读 · 0 评论 -
Hadoop MapReduce2.0(Yarn)
MapReduce2.0(Yarn)MapReduce2.0是在Hadoop0.23开始采用的,叫做MapReduce2.0或者MRv2或者Yarn。MRv2的主要思想是把jobtracker的任务分为两个基本的功能,一个是资源管理,一个是任务监控,这两个任务分别用不同的进程来运行。这个想法使拥有一个全局的资源管理器(ResourceManager)和每个应用程序的应用原创 2014-05-05 15:52:48 · 1262 阅读 · 0 评论 -
ganglia3.6安装
主机IP地址为192.168.138.22主机操作系统版本:(选择基本安装)[root@localhost rpm-gpg]# lsb_release -aLSB Version: :core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-原创 2014-02-17 18:30:54 · 1569 阅读 · 0 评论 -
ganglia监控hadoop相关配置及监控指标说明
Hadoop2.0.0-cdh4.3.0下关于ganglia配置: 修改配置文件:$HADOOP_HOME/etc/hadoop/hadoop-metrics.properties添加如下内容:*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31*.sink.ganglia.per原创 2013-12-05 18:11:27 · 1553 阅读 · 0 评论 -
Hadoop单节点故障改进方案对比
HDFS 单点改造方案对比1背景目前,HDFS集群的架构包括了单个Name Node和若干个DataNode。Name Node负责两方面的事情:一方面是存储和管理整个命名空间,包括创建、修改、删除和列举文件目录等文件系统级别的操作;另一方面是管理Data Node和文件块。Data Node主要负责文件块的持久化存储和远程访问。1.1命名空间管理HDFS的命名空间包含原创 2014-01-27 16:05:39 · 2483 阅读 · 1 评论 -
Hadoop在淘宝中的应用
【文章摘要】据悉,淘宝Hadoop集群拥有2860个节点,清一色基于英特尔处理器的x86服务器,其总存储容量50PB,实际使用容量超过40PB,日均作业数高达15万,为淘宝网的日常运营做出了关键支撑。对了,它还有一个很美丽的名字:“云梯”。 当下中国超大规模的单Master节点Hadoop集群在哪里?在淘宝。 据悉,淘宝Hadoop集群拥有2860个节点,清一色基于英特尔处理器原创 2014-01-27 15:48:19 · 3260 阅读 · 1 评论 -
hadoop安全机制Kerberos详细介绍
Kerberos1、Kerberos是一个基于共享密钥对称加密的安全网络认证系统,它避免了将密码(包括密码hash)在网上传输,而是将密码作为对称加密的密钥,通过能不能解密来验证用户的身份;2、Kerberos在验证完用户身份后会发给用户Ticket,这个Ticket包含了用户的授权,用户拿着这个Ticket去享受各种服务,所以在Kerberos管理的范围内用户只需要登录一次就可以原创 2014-01-26 11:23:25 · 5075 阅读 · 0 评论