![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 78
qq85609655
这个作者很懒,什么都没留下…
展开
-
WebHDFS vs HttpFS GateWay
基于hadoop2.7.1版本 一、简介 1、 WebHDFS官方简介: Introduction The HTTP REST API supports the complete FileSystem/FileContext interface for HDFS. 2、HttpFS GateWay官方简介: HttpFS is a server ...原创 2016-03-08 11:07:59 · 93 阅读 · 0 评论 -
Ambari中开启Hadoop HA,其中一个NN硬件损坏,恢复方法
hostssshulimit JDK & JCE#、kerberos客户端配置 krb5-workstation scp /etc/krb5.conf 重新执行#、Ambari agentyum install epel-releaseyum install ambari-agent把其它的 /etc/ambari-agent...原创 2014-08-27 15:10:44 · 101 阅读 · 0 评论 -
Hive exited with status 44
hadoop 在2.x之后启用了hdfs的HA功能其配置fs.defaultFS默认是hdfs://mycluster Sqoop导入数据包异常2014/08/26 14:46:51 - Sqoop Import - 2014/08/26 14:46:51 - Time taken: 3.226 secondsINFO - Time taken: 3.226 seconds...原创 2014-08-26 15:09:23 · 132 阅读 · 0 评论 -
解决Eclipse中运行WordCount出现 java.lang.ClassNotFoundException: org.apache.hadoop.exam
.import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URL;import java.net.URLClassLoader;import java.util.Array...原创 2015-03-20 15:55:21 · 436 阅读 · 0 评论 -
远程调试hadoop2以及错误处理方法
了解程序运行过程,除了一行行代码的扫射源代码。更快捷的方式是运行调试源码,通过F6/F7来一步步的带领我们熟悉程序。针对特定细节具体数据,打个断点调试则是水到渠成的方式。 Java远程调试 * JDK 1.3 or earlier -Xnoagent -Djava.compiler=NONE -Xdebug -Xrunjdwp:transport=dt_socket,server=y...原创 2015-03-19 15:20:46 · 110 阅读 · 0 评论 -
PDI(Kettle)5.1配置hadoop
原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2109124 最近,hadoop升级到了最新的2.4版本使用ambari 部署完毕后。使用开源的ETL工具Kettle,最新的版本是5.1下载地址:http://jaist.dl.sourceforge.net/project/pentaho/Data%20Integration/...2014-08-26 14:41:03 · 92 阅读 · 0 评论 -
Hive调优实战
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小...原创 2014-08-26 10:34:58 · 37 阅读 · 0 评论 -
Hive中小表与大表关联(join)的性能分析
经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。 多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查询,这应该算是小表了,在查看reduce的执行日志时依然...原创 2014-08-25 11:08:34 · 46 阅读 · 0 评论 -
Hortonworks HDP HA需要手动执行的命令
1Manual Steps Required: Create Checkpoint on NameNodeLogin to the NameNode host DataBase-01.Put the NameNode in Safe Mode (read-only mode):sudo su -l hdfs -c 'hdfs dfsadmin -safemode enter'...原创 2014-08-21 17:15:17 · 116 阅读 · 0 评论 -
Flume 1.5.0简单部署
=========================================================================一、Flume简介=========================================================================1、概述Flume 是 Cloudera 提供的一个高可用的,高可靠的...原创 2015-03-05 12:57:50 · 47 阅读 · 0 评论 -
Phoenix的安装与使用
hadoop与hbase集群安装好后 在每个hbase节点上安装Phoenixyum install phoenix 查看下hbase的lib下是否存在 ll /usr/hdp/2.2.0.0-2041/hbase/lib/phoenix-server.jar -> /usr/hdp/2.2.0.0-2041/phoenix/phoenix-server.j...原创 2015-03-04 10:48:24 · 81 阅读 · 0 评论 -
kettle hive 导入数据
--append --hive-import --hive-table city --connect jdbc:mysql://192.168.1.177:3306/qc_push?defaultFetchSize=500&useCursorFetch=true --username root --password 123456 --table t_city原创 2013-09-26 17:24:18 · 45 阅读 · 0 评论 -
Hadoop迁移Namenode
一.前提及方案 操作版本:社区版 Hadoop-1.0.3,其他版本不保证 之前HBase没有考虑压缩,经过一段时间的研究和测试,打算在HBase中全面采用snappy压缩库。但是在节点上配置snappy时,发现其要求glibc版本在2.5+,而当前系统CentOS-4.8的glibc是2.3.4,CentOS-4.8不支持独立升级glibc到2.5+,所以只能整个集群升级系统到...原创 2015-04-03 17:50:34 · 61 阅读 · 0 评论 -
ambari 重新安装节点上的组件
原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2201072 今天遇到这么个情况:某个节点无法启动了,数据备份出来后,需要,重新安装hadoop的组件,但是,又不想改变原有的配置,百度,Google,没有找到办法,于是研究了下ambari的源码。解决的办法也不是没有。有个表叫hostcomponentstate用于控制组件的状态,既...2015-04-10 15:10:49 · 339 阅读 · 0 评论 -
RHadoop安装和使用
环境 hortonworks 2.3版本,ambari2.1.1, hadoop版本2.7.1 1. 下载RHadoop相关软件包从地址(https://cran.r-project.org/src/base/R-3/)下载R语言的tar包我下载的是:https://cran.r-project.org/src/base/R-3/R-3.2.3.tar.gzhttps:...原创 2016-02-26 14:26:32 · 166 阅读 · 0 评论 -
HDFS的dfs.replication不同验证
HDFS的dfs.replication不同验证 集群只有三个Datanode,hadoop系统replication=4时,会出现什么情况?文件块只有三份,hadoop fsck -locations 如图所示: 对于上传文件到hdfs上时,当时hadoop的副本系数是几,这个文件的块数副本数就会有几份,无论以后你怎么更改系统副本系统,这个文件...原创 2014-12-12 11:43:29 · 536 阅读 · 0 评论 -
HDFS dfs.replication 设定
执行hive语句时,遇到 2014-12-12 10:21:48,709 INFO [pool-4-thread-491]: exec.Task (SessionState.java:printInfo(538)) - 2014-12-12 10:21:48,708 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 2181.62...原创 2014-12-12 11:21:59 · 500 阅读 · 0 评论 -
hive 大数据 除重问题研究
Hive 典型的中表内数据除重写法insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , row_number()over(distribute by p_key sort by sort_word) as...原创 2014-12-03 17:35:44 · 87 阅读 · 0 评论 -
hive 时间戳
select from_unixtime(unix_timestamp(accesstime), 'yyyyMMdd') accesstime1,date('20141113') accesstime2,date('2014-11-13') accesstime3,DATE_ADD(DATE('2014-11-13'), 1) a3,unix_timestamp('2014111...原创 2014-12-02 16:19:55 · 45 阅读 · 0 评论 -
hbase的sql工具phoenix整合到pentaho中
原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2260728 海量数据处理过程中,数据统计使用hive是完全OK的,但如果遇到数据需要及时的响应,hive长达数十秒到几分钟不等的速度一定会让使用者抓狂,如果这样的响应速度交付给客户,其结果大家都懂的。那么如何解决大数据的响应问题。我以前的在项目中的做法是,将hive的结果同...原创 2015-12-01 10:04:07 · 71 阅读 · 0 评论 -
HBase基础之常用过滤器hbase shell操作
最近需要对hbase进行性能优化,苦于对hbase的scan命令语法不熟悉,遂网上搜了点资料,觉得不错,给予记下。 创建表create 'test1', 'lf', 'sf'lf: column family of LONG values (binary value)-- sf: column family of STRING values 导入数据put...原创 2015-10-22 10:36:47 · 181 阅读 · 0 评论 -
NameNode host CPU utilization UNKNOWN for about a minute
The Nagios check for CPU utilization (against HistoryServer, ResourceManager, NameNode, etc components) uses SNMP.Is snmp port open between Nagios Server and those hosts? Also check if yo...原创 2014-10-08 14:51:22 · 68 阅读 · 0 评论 -
在Kettle(PDI)跑Apache Spark作业
原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2205156 hadoop上要跑Apache Spark作业使用的ETL工具是Kettle(PDI) 目前能够执行像mapreduce一样执行作业,插件以及demo在附近中将附件解压 使用Apache Spark最大的原因是基于内存运算速度较快,性能较好,在实际...2015-04-22 18:27:40 · 224 阅读 · 0 评论 -
升级Ambari到2.0,hadoop版本升级
原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2204510 参考: http://docs.hortonworks.com/HDPDocuments/Ambari-2.0.0.0/Ambari_Doc_Suite/index.html#Item4 升级过程中,遇到一些坑,这里记录下... 1.对ambari的数据库进行备份...2015-04-21 15:28:28 · 218 阅读 · 0 评论 -
HDFS block丢失过多进入安全模式(safe mode)的解决方法
HDFS block丢失过多进入安全模式(Safe mode)的解决方法背景及现象描述(Background and Symptom) 因磁盘空间不足,内存不足,系统掉电等其他原因导致dataNode datablock丢失,出现如下类似日志: The number of live datanodes 3 has reached the minimum number 0....原创 2015-04-14 15:22:10 · 141 阅读 · 0 评论 -
hive 三种启动方式及用途,关注通过jdbc连接的启动
1, hive 命令行模式,直接输入/hive/bin/hive的执行程序,或者输入 hive –service cli 用于linux平台命令行查询,查询语句基本跟mysql查询语句类似 2, hive web界面的启动方式,hive –service hwi 用于通过浏览器来访问hive,感觉没多大用途 3, hive 远程服务 (端口号...原创 2013-09-26 11:50:51 · 314 阅读 · 0 评论 -
Capacity Scheduler 配置
capacity-scheduler.xmlyarn.scheduler.capacity.maximum-am-resource-percent=0.2yarn.scheduler.capacity.maximum-applications=10000yarn.scheduler.capacity.node-locality-delay=40yarn.scheduler.ca...原创 2015-01-30 09:56:04 · 73 阅读 · 0 评论 -
hadoop2 启动命令
格式化namenodehadoop namenode -format启动名字nodehadoop namenode 启动数据节点hadoop datanode 启动snn节点hadoop start secondarynamenode启动yarn-daemon.sh start resourcemanageryarn-daemon.sh start no...原创 2014-06-04 15:39:37 · 82 阅读 · 0 评论 -
源码级强力分析hadoop的RPC机制
转:http://weixiaolu.iteye.com/blog/1504898分析对象: hadoop版本:hadoop 0.20.203.0必备技术点: 1. 动态代理(参考 :http://weixiaolu.iteye.com/blog/1477774 )2. Java NIO(参考 :http://weixiaolu.iteye.com/blog/1479656 )3. Jav...原创 2013-08-01 00:16:34 · 47 阅读 · 0 评论 -
大规模并行查询引擎 BlinkDB
BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。它允许用户通过权衡数据精度来提升查询响应时间,其数据的精度被控制在允许的误差范围内。为了达到这个目标,BlinkDB 使用两个核心思想:一个自适应优化框架,从原始数据随着时间的推移建立并维护一组多维样本;一个动态样本选择策略,选择一个适当大小的示例基于查询的准确性和(或)响应时间需求。我们已经...原创 2014-05-05 13:39:02 · 79 阅读 · 0 评论 -
Spark Shell由于Scala编译器原因不能正常启动
使用SBT安装完成Spark后,可以运行示例,但是尝试运行spark-shell就会报错:D:\Scala\spark\bin\spark-shell.cmd SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/D:/Scala/spark/assemb...原创 2014-05-01 12:20:34 · 184 阅读 · 0 评论 -
启动hive
./bin/hive -hiveconf hbase.master=localhost:60000原创 2013-07-21 01:08:46 · 40 阅读 · 0 评论 -
hbase单独启动region server
启动集群中所有的regionserver./hbase-daemons.sh start regionserver启动某个regionserver./hbase-daemon.sh start regionserver原创 2013-07-20 22:27:52 · 256 阅读 · 0 评论 -
Hbase 建表基本命令总结
访问hbase,以及操作hbase,命令不用使用分号hbase shell 进入hbaselist 查看表hbase shell -dhbase(main):024:0> scan '.META.'=============小例子===================================================1. 创建一个表memberhbase(ma...原创 2013-07-20 19:31:26 · 51 阅读 · 0 评论 -
Apache Hadoop 源代码编译环境搭建
粗略整理的一个步骤。1. 下载 Apache Hadoop 源码包,解压(放在不需要root权限的路径下,避免因为目录权限不够导致编译错误,或者全程使用root用户)2. 安装工具链, 参考源码包下的BUILDING说明及apache网站上给出的帮助. hadoop 依赖库protobuf: https://code.google.com/p/protobuf/apt-...原创 2013-12-09 11:55:12 · 35 阅读 · 0 评论 -
Hadoop即将过时了吗?
Hadoop 这个单词如今铺天盖地,几乎成了大数据的代名词。仅仅数年时间,Hadoop 从边缘技术迅速成长为一个事实标准。如今想玩转大数据,搞企业分析或者商业智能,没有 Hadoop 还真不行。但 Hadoop 狂热的背后却酝酿着一场技术变革,Hadoop 的核心技术在 Google 那里已经过时,因为 Hadoop 并不擅长处理“快数据”。今天,Hadoop 似乎已经毫无争议地...原创 2013-07-18 23:31:47 · 52 阅读 · 0 评论 -
windows安装hadoop
hadoop是什么就不多说了,看这里hadoop推荐部署环境是在linux,但是我们想要在windows体验一下还是可以的,follow me 我的环境:windows xp,hadoop安装包(0.20.2) ,cygwin打开cygwin把hadoop的包放到这个目录下然后输入命令tar zxf hadoop-0.20.1.tar.gz解压完成后进入hado...原创 2013-07-16 18:02:50 · 37 阅读 · 0 评论 -
学习Hadoop不错的系列文章
1)Hadoop学习总结 (1)HDFS简介 地址:http://forfuture1978.iteye.com/blog/615033 (2)HDFS读写过程解析 地址:http://blog.csdn.net/forfuture1978/article/details/6001302 (3)Map-Reduce入门 地址:http://blog.csdn...原创 2013-07-15 12:48:04 · 37 阅读 · 0 评论 -
sqoop 的使用
1)列出mysql数据库中的所有数据库命令sqoop list-databases --connect jdbc:mysql://localhost:3306/ --username root --password 123456 2)连接mysql并列出数据库中的表命令sqoop list-tables --connect jdbc:mysql://localhost:3306...原创 2014-06-12 14:41:27 · 39 阅读 · 0 评论 -
Hadoop管理员的十个最佳实践
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hadoop...原创 2013-08-24 09:56:07 · 47 阅读 · 0 评论