![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
duguyiren3476
这个作者很懒,什么都没留下…
展开
-
hive on tez详细配置和运行测试
hive on tez详细配置和运行测试标签(空格分隔): tez hadoop hive hdfs yarn环境: hadoop-2.5.2 hive-0.14 tez-0.5.3 hive on tez 的方式有两种安装配置方式:在hadoop中配置在hive中配置 比较: 第二种方式:当已经有了稳定的hadoop集群,而不想动这个集群时,可以考虑采用第二种方式配置,第二种方式配置原创 2015-06-03 17:50:43 · 11477 阅读 · 2 评论 -
测试hbase预设分区
测试hbase预设分区 phonex-4.3 hbase-0.98.10 环境 hbase-0.98.10,hadoop-2.5.2 预设分区使用hbase为了在写入阶段避免个别节点过热,通过数据的分布图,在创建表的时候预设表的分区:create 'test_splits', {NAME => 'cf', VERSIONS=> 3},{SPLITS ...原创 2015-04-07 20:06:22 · 288 阅读 · 0 评论 -
apache drill 0.8.0 单机/分布式安装测试
apache drill 0.8.0 安装测试 apache drill0.8.0 drill 0.8.0 单机模式 分布式 环境 apache-drill-0.8.0 apache-hadoop-2.5.2 jdk1.7 写在前面 看到社区发表的文章显示,apache drill 在PB级数据面前在数秒内即可查询返回结果,这个测试报告很吸引人,但是没有描述用了多少个节...原创 2015-04-16 16:57:56 · 600 阅读 · 0 评论 -
NFS挂载hdfs到本地
NFS挂载hdfs到本地 nfs hdfs nfs hdfs hdfs挂载: hdfs是分布式系统,要想访问hdfs上的文件,可以用java api 或者hadoop shell等工具,如果想操作hdfs文件系统就像操作本地文件系统一样的便捷,可以将hdfs文件系统挂载到本地的一个目录上,那么挂载的方式有两种:fuse 挂载:需要另外安装fuse工具,详细请参考: ...原创 2015-05-07 18:34:42 · 1754 阅读 · 0 评论 -
hadoop2.5.2配置httpfs服务
hadoop2.5.2配置httpfs服务 httpfs hadoop hdfs 测试环境ubuntu 14.04 单机hadoop2.5.2 伪分布式jdk1.7作用通过HttpFs你可以在浏览器里面管理HDFS上的文件,功能同hadoop shell相似HttpFs还提供了一套REST 风格的API可以用来管理HDFS...原创 2015-05-08 12:58:55 · 563 阅读 · 0 评论 -
hive on tez hive运行在tez之上 安装测试
hive on tez详细配置和运行测试tez hadoop hive hdfs yarn环境: hadoop-2.5.2 hive-0.14 tez-0.5.3 hive on tez 的方式有两种安装配置方式:在hadoop中配置在hive中配置比较: 第二种方式:当已经有了稳定的hadoop集群,而不想动这个集群时,可以考虑采用第二种方式配置...原创 2015-05-26 18:53:32 · 1258 阅读 · 1 评论 -
ambari 安装配置
测试环境centos6.5 64bitambari-2.0.1作用ambari安装hadoop时默认是从官网在线下载安装包,安装包要3Gb左右大小,在线安装屡屡请求超时而失败,况且正式环境中hadoop集群主机多数是不能链接外网的,因此,配置一个本地数据源是多么的迫切和明智的,下面参考本地数据配置过程.ambari安装过程略过.安装ambari...原创 2015-06-02 11:28:59 · 378 阅读 · 0 评论 -
hive 小记
hive 小记 hive hadoop hdfs 测试环境centos6.5 64bithadoop-2.5.2hive-0.14udf引入第三方lib包将第三方的jar统一存放到一个目录中:/usr/local/hivelib/ 并设置变量: export HIVE_AUX_JARS_PATH="/usr/loc...原创 2015-06-02 11:41:02 · 147 阅读 · 0 评论 -
pig on tez测试
pig on tez测试 pig tez hadoop hdfs 测试环境pig-0.14.0hadoop-2.5.2 ()1+2)hive on tez 测试后,很好奇,pig是否可以在tez上运行呢?从官网上可以看到pig on tez的描述,就想应该是可以pig on tez的.pig安装过程略过…准备数据集[...原创 2015-06-02 14:16:24 · 203 阅读 · 0 评论 -
fuse挂载hdfs 安装配置
fuse安装的情况下,需要使用root进行启动配置,如果需要使用其他账号挂载目录:echo user_allow_other >> /etc/fuse.confchmod +rx /bin/fusermount然后在使用fusemount的命令加上一些选择,数字是用户id和组id -d -o uid=2001 -o gid=2001下载fuse安装包到指定...原创 2014-04-25 12:02:37 · 554 阅读 · 0 评论 -
编译tez 0.7
tez自己编译0.7 版本,为了测试hadoop2.7.1 是否运行顺畅,编译:mvn clean package -DskipTests=true -Dmaven.javadoc.skip=true编译过程一直到tez-ui模块异常编译不通过:bower ESUDO Cannot be run with sudo,需要编辑tez-ui中的pom.xml文件,添加红色部...原创 2015-07-29 16:30:09 · 227 阅读 · 0 评论 -
tez ui 安装测试
tez ui 安装测试标签(空格分隔): 未分类环境:hadoop-2.7.1,tez-0.7.0,tomcat 7将编译后的tez-ui.xxx.war文件复制到tomcat的webapps目录中修改tez-ui的war解压后的文件scripts/configs.js文件App.setConfigs({/* Environment configuration...原创 2015-08-04 17:03:07 · 278 阅读 · 0 评论 -
drill1.0配置hive storage plugin及测试
drill1.0配置hive storage plugin及测试drill,hive截止到目前本博客发布前,apache drill最新发布版本是1.0.0,对与此版本的数据源支持和文件格式的支持:avroparquethivehbasecsv tsv psvFile system 对于目前我的需求:snappy+sequencefile 的hdfs存储...原创 2015-08-06 10:18:31 · 409 阅读 · 0 评论 -
Phoenix设置时间戳
Phoenix设置时间戳 phonex-4.3 hbase-0.98.10 环境 phonex-4.3,hbase-0.98.10,hadoop-2.5.2 设置时间戳 使用hbase的TTL机制用来定时删除过期的数据记录,但是默认的是数据插入是的系统时间戳,显然不可以,需要手动设置时间戳,找了半天,官方文档上提到CurrentSCN 的描述,最终使用java客户端设置时间戳...原创 2015-04-07 19:13:45 · 2233 阅读 · 0 评论 -
eclipse远程连接hadoop进行开发测试
eclipse远程连接hadoop进行开发测试马克飞象 由于搭建hadoop环境在仿真系统,在本地远程连接hdfs和提交mapreduce的job任务精力了曲折,现整理如下:hadoop环境 :hadoop2.5.2 jdk1.7 eclipse_luno hadoop_eclipse插件2.6; wordcount代码如下:package test;im...原创 2015-03-27 18:17:31 · 280 阅读 · 0 评论 -
hadoop运行原理之我见
从接触hadoop到目前,对hadoop的运行流程及原理做初步的总结: hadoop中的核心hdfs和MR,hdfs为分布式文件系统,通过冗余备份的机制实现数据的安全存储,从数据集中计算到计算的分布式,很大程度上减少了数据的网络传输(计算后的结果数据也可能大于元数据),重要的是集中计算的任务呗分配到多台普通的PC上,负载均衡。 总结hadoop计算的流程: Map阶段前,通过in...原创 2013-03-28 10:05:15 · 91 阅读 · 0 评论 -
hadoop 在win系统中的eclipse开发测试问题及解决
hadoop 在win系统中的eclipse开发测试问题及解决一· 在win系统下安装cygwin的步骤不在赘述,常见错误如下:问题1] # /usr/local/sbin/sshd/usr/local/sbin/sshd: error while loading shared libraries: libnsl.so.1: cannot open shared object fil...原创 2013-04-07 17:22:23 · 121 阅读 · 0 评论 -
基于hadoop源码开发环境搭建
基于hadoop源码开发环境搭建 在开发hadoop的MR,以及研究hadoop源码,都需要将hadoop源码java部署到开发工具中,例如常用的eclipse,具体做法如下:第一步:在Eclipse新建一个Java项目 第二步:将Hadoop程序src下core, hdfs, mapred, tools几个目录copy到上述新建项目的src目录 ...原创 2013-04-23 13:42:02 · 184 阅读 · 0 评论 -
hadoop配置常见错误及解决方法
1配置文件中使用IP地址错误:(logs目录下的日志文件错误)10/11/09 17:19:06 INFO mapred.JobClient: Task Id : attempt_201011091659_0001_m_000003_0, Status : FAILEDError initializing attempt_201011091659_0001_m_000003_0:j...原创 2012-08-13 18:15:29 · 572 阅读 · 0 评论 -
hive 安装运行错误及解决办法
1.hive> show tables;FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Communications link failureLast packet sent to the server was 0 ms ago.NestedThrowables:com.mysql.jdbc.exc...原创 2012-08-15 14:33:35 · 178 阅读 · 0 评论 -
Hive metastore三种存储方式
测试环境下Hive总出问题,metastore的配置有问题。抽了点时间,把Hive的meta数据几种存储方式都配置了下。Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。一、使用derby数据库存储元数据。这种方式是最简单的存储方式,只需要在hi...原创 2012-08-15 14:42:07 · 433 阅读 · 0 评论 -
hbase常见错误及解决方法
1. 运行hbase shell 时错误:ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 解决办法:A:如果rootdir配置的是使用hdfs,检查是否hdfs服务进程没有打开,请启动hadoop。 B:确认hadoop已经启动...原创 2012-08-16 14:59:52 · 1324 阅读 · 0 评论 -
压缩 HDFS 上的文件, 提供使用者下載
(转)今天的進度是研究如何讓使用者透過網路來下載 HDFS 上的檔案,基本上這和壓縮一般的檔案沒什麼兩樣,直接透過 java 內建的 java.util.zip 套件就可以輕易做到了。唯一的差別,在這裡要用 Hadoop API 提供的 FSDatainputStream 來開啟檔案串流,然後逐一寫入到壓縮串流就可以完成檔案壓縮的目的。 而在操作流程的上,使用者會先選...原创 2012-09-06 13:48:13 · 102 阅读 · 0 评论 -
mahout安装测试
mahout 安装软件准备:hadoop-0.20.2,mahout-0.4,ubuntu 11.10,jdk1.6 mahout的版本0.4只对hadoop-0.20.2版本兼容 如果fs版本为hadoop0.20.2 请下载mahout0.4版本 mahout是hadoop的一种高级应用。运行mahout需要提前安装好hadoop。hadoop的安装网...原创 2012-09-26 11:22:47 · 108 阅读 · 0 评论 -
hadoop second namenode异常 Inconsistent checkpoint fields
hadoop second namenode异常 Inconsistent checkpoint fieldsjava.io.IOException: Inconsistent checkpoint fields.LV = -47 namespaceID = 524164388 cTime = 0 ; clusterId = CID-5c38c719-cc2c-47d9-a4...原创 2015-01-14 15:25:28 · 237 阅读 · 0 评论 -
hadoop balancer
hadoop balancer设置同步带宽bin/hadoop dfsadmin -setBalancerBandwidth 1073741824起参单位为字节,1073741824byte=1G启动balancer进程bin/hadoop balancer -threshold 10或者sbin/start-balancer.s...原创 2015-01-14 15:38:29 · 102 阅读 · 0 评论 -
hadoop2.x jobhistoryserver 配置
hadoop2.x jobhistoryserver 配置 hadoophadoop1.x之前的版本中可以开启50030端口,查看历史作业的运行日志,包括mr日志和自定义日志,但是hadoop2.x 是用MRv2(yarn)作为作业运行服务,代替50030端口的是一个jobhistory服务.jobhistory记录下已运行完的MapReduce作业信息并存放在指定的HDF...原创 2015-02-11 10:28:06 · 328 阅读 · 0 评论 -
spark运行在yarn上的一个异常
主机配置内存不足,导致在yarn上运行job异常,下面是spark运行在yarn上的一个异常:17/05/03 17:58:02 ERROR client.TransportClient: Failed to send RPC 7785784597803174149 to /172.26.159.91:56630: java.nio.channels.ClosedChannelExcept...原创 2017-05-03 18:08:43 · 1311 阅读 · 0 评论