hadoop
文章平均质量分 59
oO寒枫Oo
专注spark hadoop mysql
展开
-
如何安装Hbase
集群环境:192.168.11.12 作为hbase主master192.168.11.14 作为hbase备用master 192.168.11.16作为zookeeperNode/HRegionsever192.168.11.18作为zookeeperNode/HRegionsever192.168.11.20作为zookeeperNode/HRegionsever转载 2012-08-03 15:09:34 · 2211 阅读 · 0 评论 -
hadoop 异常 reduce长时间卡住停滞不前的问题
起因: datanode的磁盘挂掉了2个 昨天的任务跑完了之后,检查了下dfsadmin -report 监测到集群之中有个节点的 Configured Capacity 比其它的节点少了差不多2个磁盘的容量;然后去检查了下这个节点 发现确实有2个磁盘出了问题。 于是。重启 换磁盘 ,重新启动了节点。然后在此节点上 执行了balancer 问题出现了:原创 2013-12-10 11:33:21 · 12665 阅读 · 1 评论 -
Hadoop升级步骤cdh3u3到cdh3u6
8月份的时候做了下hadoop的升级,小版本升级参考文档:http://wiki.apache.org/hadoop/Hadoop_Upgrade原文地址:在此做一个记录:从版本 hadoop-0.20.2-cdh3u3 升级到 hadoop-0.20.2-cdh3u6步骤如下:1.备份namenode信息#hadoop dfs –lsr / >/opt/namenod原创 2013-10-23 11:32:59 · 1881 阅读 · 0 评论 -
hadoop命令 -- job相关
hadoop命令行 与job相关的:命令行工具 • 1.查看 Job 信息:hadoop job -list 2.杀掉 Job: hadoop job –kill job_id3.指定路径下查看历史日志汇总:hadoop job -history output-dir 4.作业的更多细节: hadoop job -history all output-dir原创 2013-10-23 11:38:27 · 20086 阅读 · 0 评论 -
FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.解决办法
起因是我重装了mysql数据库。安装之后 把访问权限都配置好 :GRANT ALL PRIVILEGES ON*.* TO 'hive'@'%' Identified by 'hive'; GRANT ALL PRIVILEGES ON*.* TO 'hive'@'localhost' Identified by 'hive'; GRANT ALL PRIVILEGES原创 2013-09-03 20:50:09 · 18484 阅读 · 5 评论 -
如何杀掉当前正在执行的hadoop任务
列出当前hadoop正在执行的jobs:[hadoop@192.168.10.11 hadoop-0.20.2-cdh3u3]$ hadoop job -list10 jobs currently runningJobId State StartTime UserName Priority SchedulingInfojob_2012原创 2013-08-28 10:44:17 · 40358 阅读 · 0 评论 -
hadoop主节点(NameNode)备份策略以及恢复方法
一、dits和fsimage 首先要提到两个文件edits和fsimage,下面来说说他们是做什么的。集群中的名称节点(NameNode)会把文件系统的变化以追加保存到日志文件edits中。 当名称节点(NameNode)启动时,会从镜像文件 fsimage 中读取HDFS的状态,并且把edits文件中记录的操作应用到fsimage,也就是合并到fsimage中去。合并原创 2013-08-12 09:02:25 · 3895 阅读 · 0 评论 -
Hadoop参数:dfs.name.dir 与 dfs.data.dir
dfs.name.dirDetermines where on the local filesystem the DFS name node should store the name table(fsimage). If this is a comma-delimited list of directories then the name table is replicated in a原创 2013-08-05 15:21:41 · 11537 阅读 · 0 评论 -
Hadoop操作HDFS命令
Hadoop操作HDFS命令如下所示:hadoop fs查看Hadoop HDFS支持的所有命令hadoop fs –ls列出目录及文件信息hadoop fs –lsr循环列出目录、子目录及文件信息hadoop fs –put test.txt /user/sunlightcs将本地文件系统的test.txt复制到HDFS文件系统的/user/sun原创 2013-07-25 10:59:24 · 1825 阅读 · 0 评论 -
hadoop datanode 磁盘坏掉之后的解决办法
之前发了一篇文章:http://blog.csdn.net/lxpbs8851/article/details/17241551记录的是由于开启了 坏掉磁盘的datanode,导致集群部分功能无法使用的现象。上次的解决办法是 直接暴力kill掉了坏掉磁盘的DataNode && TaskTracker 修复的节点记录为 slave143过程如下:1.下线slave143原创 2013-12-23 14:18:13 · 14683 阅读 · 3 评论 -
hadoop集群机架感应配置的简单过程(shell脚本版本)
配置机架感应的过程如下:1.编写shell脚本:原创 2014-07-30 11:26:37 · 2501 阅读 · 0 评论 -
Invalid value set for db.setupType, the valid values are EMBEDDED or EXTERNAL
最近尝试了下 CDH :cloudera manager 当前最新版本 5.10 数据库用的是自建的 其他配置都是默认无修改:启动server 会报错:2017-03-06 00:02:44,675 ERROR MainThread:com.cloudera.server.cmf.Main: Server failed.java.lang.IllegalArgumentEx原创 2017-03-08 11:28:56 · 3291 阅读 · 0 评论 -
hadoop2 JAVA_HOME is not set and could not be found
启动yarn的报错JAVA_HOME not set的处理办法问题: JAVA_HOME is not set解决办法:yarn-env.sh 中添加:export JAVA_HOME=/usr/java/jdk1.7.0_55 问题: JAVA_HOME is not set and could not be found (hadoop2 sh 的一个小bug原创 2015-04-23 18:25:35 · 8907 阅读 · 0 评论 -
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceID
问题的产生:今天遇到了一个问题 我执行了 ./hadoop namenode -format 之后启动hadoop: ./start-all.sh 的时候运行jps发现 datanode没有起来 但是 TaskTracker是正常启动的然后我去datanode的错误日志里面发现的下面的问题:2012-11-23 14:31:14,319 INFO org原创 2012-11-23 16:17:17 · 10318 阅读 · 1 评论 -
hive问题Cannot get a connection, pool error Could not create a validated object 的解决办法
[hadoop@master hive_dat]$ hive Logging initialized using configuration in file:/app/hive/conf/hive-log4j.propertiesHive history file=/tmp/hadoop/hive_job_log_hadoop_201212181216_2004188466.txthi原创 2012-12-18 12:15:25 · 6430 阅读 · 0 评论 -
org.apache.hadoop.security.AccessControlException: Permission denied: user=root
用root 用户进入hive show tables没有报错,但是select 的时候报错了:错误信息: FAILED: Hive Internal Error: java.lang.RuntimeException(org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessC原创 2013-02-25 16:29:04 · 11648 阅读 · 1 评论 -
hadoop balance 需要在退出安全模式的情况下进行
执行balance的时候 集群的安全模式需要关闭 不然会有下面的错误信息,并且balance不会成功的执行。Received an IO exception: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create file/system/balancer.id. Name node is in safe原创 2013-12-11 17:39:42 · 2300 阅读 · 0 评论 -
Hadoop异常处理 Bad connect ack with firstBadLink (No route to host )
java.io.IOException: Bad connect ack with firstBadLink as 192.168.1.178:50010Continuing ...java.io.IOException: Bad connect ack with firstBadLink as 192.168.102.178:50010Continuing ...原创 2014-07-17 09:59:24 · 6819 阅读 · 0 评论 -
关于Hadoop你不得不知道的12个事实
【IT168 评论】现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据“大数据”技术的头把交椅呢。 虽然Hadoop伴随大数据一同火爆起来,但相信还是有许多用户对于它不甚了解。在上周名的TDWI解决方案峰会中, TDWI研究主任兼行业分析转载 2012-07-26 18:19:45 · 1706 阅读 · 0 评论 -
Hadoop&hive安装配置
下载Hadoop下载地址:http://labs.renren.com/apache-mirror/hadoop/common/版本:hadoop-1.0.3.tar.gz Hive 下载地址:http://labs.renren.com/apache-mirror/hive/版本:hive-0.9.0-bin.tar.gz 下载JDK主机从机上都要安装原创 2012-09-19 11:17:57 · 9660 阅读 · 0 评论 -
HIVE的表操作语句
转自:http://hi.baidu.com/zhangxinandala/item/49752510cc7ad08789a956171.创建表的语句:Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_转载 2012-12-14 15:42:03 · 930 阅读 · 0 评论 -
HDFS+MapReduce+Hive+HBase十分钟快速入门(转)
HDFS+MapReduce+Hive+HBase十分钟快速入门 1. 前言本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。2. Hadoop家族截止2009-8-19日,整个Hadoop家族由以下几个子项目组成:成员名用途Hadoop CommonH转载 2012-09-07 16:58:37 · 1099 阅读 · 1 评论 -
基于ZooKeeper构建大规模配置系统
转载地址:http://it.dianping.com/base/2011/42_%E5%9F%BA%E4%BA%8Ezookeeper%E6%9E%84%E5%BB%BA%E5%A4%A7%E8%A7%84%E6%A8%A1%E9%85%8D%E7%BD%AE%E7%B3%BB%E7%BB%9F.html通常大中型互联网公司都拥有较大规模、结构复杂的服务器集群。随着互联网迅速发展,用户访转载 2012-08-28 10:58:48 · 1305 阅读 · 0 评论 -
HBase 性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer转载 2012-07-30 17:06:32 · 1757 阅读 · 0 评论 -
MapReduce和并行数据库,朋友还是敌人?
在2010年1月的ACM上,有两篇文章非常吸引人注意。一篇文章是Google的Jeffrey Dean、Sanjay Ghemawat发表的标题为《MapReduce:一个灵活的数据库处理工具》,另一篇文章是Michael Stonebraker、Daniel Abadi、David J. DeWitt、Sam Madden、Erik Paulson、Andrew Pavlo、Alexander转载 2012-07-02 16:50:48 · 1620 阅读 · 0 评论 -
HBase 在淘宝的应用和优化小结
本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。原文地址:http://walkoven.com/?p=57文章PDF下载:http://walkoven.com/hbase:optimization and apply summ转载 2012-07-30 17:49:34 · 2574 阅读 · 0 评论 -
关系型数据库到HBase的数据储存方式变迁
如今Bigtable型(列族)数据库应用越来越广,功能也很强大。但是很多人还是把它当做关系型数据库在使用,用原来关系型数据库的思维建表、存储、查询。本文以hbase举例讲述数据模式的变化。传统关系型数据库(mysql,oracle)数据存储方式主要如下:图一上图是个很典型的数据储存方式,我把每条记录分成3部分:主键、记录属性、索引字段。我们会对索引字段建立索引,达到二级索引的效果。转载 2012-07-30 17:03:35 · 4508 阅读 · 0 评论 -
淘宝数据魔方技术架构解析
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何 从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发转载 2012-07-30 17:01:32 · 1305 阅读 · 0 评论 -
分布式数据库 HBase
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bi转载 2012-07-30 16:59:28 · 1093 阅读 · 0 评论 -
zookeeper 启动报错 Starting zookeeper ... already running as process xxx
安装好了zookeeper 启动的时候报错Using config: /app/zookeeper-3.4.3/bin/../conf/zoo.cfgStarting zookeeper ... already running as process 23486.此时 kill 掉这个process 然后检查配置 与 sh文件的执行权限。配置的时候注原创 2012-09-26 10:39:12 · 15580 阅读 · 1 评论 -
hadoop的wiki地址
记录下 hadoop的 wiki地址: http://wiki.apache.org/hadoop/FrontPage原创 2012-09-12 16:32:33 · 774 阅读 · 0 评论 -
dfs.data.dir 配置导致datanode无法启动
在新装的hadoop集群中 由于大意 dfs.data.dir参数 所对应的目录没有建立导致 该datanode没有起来:错误信息如下:2012-12-14 12:17:50,463 INFO org.apache.hadoop.metrics2.impl.MetricsConfig: loaded properties from hadoop-metrics2.propertie原创 2012-12-14 15:48:17 · 13274 阅读 · 0 评论 -
Hbase 无法创建表 创建表卡住不动
hbase shell不能创建表的原因分析。一.现象:前一段时间 安装了Hbase hbase shell 进去之后 list status 命令都能够正常运行。但是执行建表语句 :create 'aaa','bbb'的时候 他就一直卡在那不动,也不报任何错误, 日志里面一直在刷如下的 debug日志:DEBUG org.apache原创 2012-12-12 17:19:09 · 18020 阅读 · 0 评论 -
hive日志文件的批量导入
/hive_dat/getui/目录下面存着大量的.log日志,现在需要将它们全部导入到hive里面简单的导入语法如下: for file_n in `ls /hive_dat/getui/*log`dohive -S -e"load data local inpath '$file_n' into table report_im_push_msg_log;"done原创 2012-12-24 16:42:44 · 3281 阅读 · 0 评论 -
启动hbase 报错 Address already in use 的解决办法
master: java.net.BindException: Address already in usemaster: at sun.nio.ch.Net.bind(Native Method)master: at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:1原创 2012-12-07 12:21:25 · 12298 阅读 · 0 评论 -
Hive警告的解决办法 WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated
[hadoop@master data]$ hiveWARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apache.hadoop.log.metrics.EventCounter in all the log4j.properties files.Logging initial原创 2012-09-25 10:25:34 · 8943 阅读 · 1 评论 -
大数据时代:Hadoop解决数据处理三瓶颈
原文地址:http://www.lupaworld.com/article-213002-1.html越来越多的大企业的数据集以及创建需要的一切技术,包括存储、网络、分析、归档和检索等,这些被认为是海量数据。这些大量信息直接推动了存储、服务器以及安全的发展。同时也是给IT部门带来了一系列必须解决的问题。 信息技术研究和分析的公司Gartner认为海量数据处理应该是将大量的不同种类以及转载 2012-09-19 15:40:53 · 6024 阅读 · 0 评论 -
Hadoop添加新的节点
1.修改host 1) 新的slave的ip添加到master/etc/hosts中 2) 新的slave的ip添加到slaves的/etc/hosts中3) 将master及其他slave的ip hostname对 添加到新的slave的/etc/hosts中2.修改namenode的配置文件/app/hadoop/conf/slaves 添加新增节点的ip或h原创 2012-09-19 14:56:07 · 5837 阅读 · 0 评论 -
cloudera manager - Error while committing the transaction
现象:在用cloudera manager编辑各个组件配置的时候有可能会出现报错信息:Error while committing the transactioncloudera server 端日志:Caused by: java.sql.BatchUpdateException: Incorrect string value: '\xE5\xB7\x原创 2017-05-09 10:38:23 · 9816 阅读 · 0 评论