Hadoop
文章平均质量分 76
liuxw0035
这个作者很懒,什么都没留下…
展开
-
【收藏】hadoop hdfs命令
cat使用方法:hadoop fs -cat URI [URI …]将路 径指定文件的内容输出到stdout。示 例: hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2 hadoop fs -cat file:///file3 /user/hadoop/file4返回值:成功返回...2012-11-06 09:37:24 · 54 阅读 · 0 评论 -
Hadoop启动脚本执行流程
在bin/hadoop 这个脚本中,有如下片段: # figure out which class to runif [ "$COMMAND" = "namenode" ] ; then CLASS='org.apache.hadoop.hdfs.server.namenode.NameNode' HADOOP_OPTS="$HADOOP_OPTS $HADOOP...原创 2012-04-11 23:48:48 · 58 阅读 · 0 评论 -
Kerboers认证由于和Master时间不同步导致的错误
刚发现Hbase集群一台RegionServer挂掉了,重启之后仍然不正常,日志中的错误:Caused by: java.io.IOException: Login failure for hbase/hd0159-sw36.dc.sh-wgq.sdo.com@DC.SH-WGQ.SDO.COM from keytab /home/hdfs/hbase-current/conf/hbase...2013-04-03 15:56:11 · 185 阅读 · 0 评论 -
使用kerberos的hadoop选择java版本需注意
使用kerberos的hadoop集群,如果在kerberos配置文件正确,但访问hdfs报错: WARN ipc.Client: Exception encountered while connecting to the server : javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSExcept...2012-07-12 09:51:57 · 94 阅读 · 0 评论 -
hadoop修改kerberos默认的配置文件
kerberos默认的配置文件krb5.conf文件位于/etc目录下,如果需要为hadoop指定到另外目录的配置文件,修改$HADOOP_HOME/conf/hadoop-env.sh export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true -Djava.security.krb5.conf=/home/p_sdo_data_etl...2012-07-05 15:23:18 · 161 阅读 · 0 评论 -
mapreduce报错:java.io.IOException: Split metadata size exceeded 10000000.
Failure Info:Job initialization failed: java.io.IOException: Split metadata size exceeded 10000000. Aborting job job_201205162059_1073852 at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.r...2012-06-21 15:46:21 · 177 阅读 · 0 评论 -
MapReduce直接连接Mysql获取数据
Mysql中数据: mysql> select * from lxw_tbls;+---------------------+----------------+| TBL_NAME | TBL_TYPE |+---------------------+----------------+| lxw_test_table | ...2013-05-31 17:29:26 · 76 阅读 · 0 评论 -
Cygwin中运行hadoop mapreduce任务必须设置中间暂存目录
cygwin上运行hadoop mr任务,一直报错: 2012-04-20 00:47:28,937 WARN org.apache.hadoop.mapred.TaskTracker: Error running childjava.io.FileNotFoundException: File C:/home/Administrator/hadoop-0.20.2/hadoop...原创 2012-04-20 01:22:29 · 54 阅读 · 0 评论 -
hadoop-error:DiskChecker$DiskErrorException: Invalid volume failure config value
2012-12-17 10:58:59,925 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.util.DiskChecker$DiskErrorException: Invalidvolume failure config value: 3 at org.apache.ha...2012-12-17 13:33:12 · 217 阅读 · 0 评论 -
MapReduce读取HDFS,将结果写入MongoDB
参考:http://docs.mongodb.org/ecosystem/tutorial/getting-started-with-hadoop/附件是我编译和下载好的jar包(hadoop版本:hadoop-0.20.2-cdh3u3),需要的可下载直接使用。 首先,编译MongoDB Adapter1.下载源码:https://github.com/mongodb/mo...原创 2013-05-29 11:07:51 · 65 阅读 · 0 评论 -
hive新旧jar包冲突引起的错误java.lang.NoSuchFieldError: info
Exception in thread "main" java.lang.NoSuchFieldError: info at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:583) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.jav...2012-06-21 11:34:53 · 167 阅读 · 0 评论 -
开发高效的hive程序,hive优化
给部门做的一次hive开发优化的分享,经验不足,还请大家多多指教。 ppt见附件。 •分区裁剪、列裁剪•合理利用中间表,避免对一个表重复扫描•尽量避免笛卡尔积•合理使用MapJoin•用Join代替IN•合理使用Union a...2012-06-20 10:04:24 · 63 阅读 · 0 评论 -
为hive设置输出压缩的参数
<!-- map output compress begin--><property> <name>mapred.compress.map.output</name> <value>true</value></property><property>原创 2012-05-17 16:41:12 · 79 阅读 · 0 评论 -
java api读取RCFile
private static List<String> showRCFile (Path src,Configuration conf) { List<String> list = new ArrayList<String>(); try { FileSystem fs = FileSystem.get(src.toUri(), conf);...原创 2012-05-17 10:05:14 · 104 阅读 · 0 评论 -
大概记录一下hive安装步骤
1. rpm安装mysqlgroupadd mysqluseradd -g mysql mysqlrpm -ivh MySQL-server-5.5.24-1.rhel5.i386.rpm rpm -ivh MySQL-client-5.5.24-1.rhel5.i386.rpm 启动mysql:/etc/init.d/mysql start添加系统启动:/s...原创 2012-05-14 21:46:24 · 47 阅读 · 0 评论 -
hadoop dfsadmin -setSpaceQuota 设置目录配额的问题
通过该命令可以来限定某个hdfs目录的大小: hadoop dfsadmin -setSpaceQuota 3000 /group/d_sdo_data/user/liuxiaowen 但设定之后,put一个2000多字节的文件时候报错: 12/05/14 15:41:24 WARN hdfs.DFSClient: DataStreamer Exception: org.a...原创 2012-05-14 16:12:15 · 87 阅读 · 0 评论 -
java api获取hdfs目录大小
1. hadoop fs -dus 的源码: public static void dus(String src,Configuration conf) throws IOException { Path srcPath = new Path(src); FileSystem srcFs = srcPath.getFileSystem(conf); Fi...2012-05-07 17:10:47 · 628 阅读 · 0 评论 -
hadoop本地windows测试mr程序
@Override public int run(String[] args) throws Exception { //String fileName = "E:/tmp/1111.txt"; Configuration conf = new Configuration(); conf.set("fs.default.name", "file:///"); conf....原创 2012-05-04 17:28:42 · 76 阅读 · 0 评论 -
复制本地文件到hdfs中的目标文件
package com.lxw;import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.InputStream;import java.io.OutputStream;import java.net.URI;import org.apache.hadoop...2012-04-25 14:49:46 · 110 阅读 · 0 评论 -
namenode启动时候都做了什么
1. NameNode.main(): NameNode namenode = createNameNode(argv, null);2. NameNode. createNameNode():setStartupOption(conf, startOpt); // conf.set("dfs.namenode.startup", opt.toString());Nam...2012-04-24 15:38:40 · 76 阅读 · 0 评论 -
hive 多字段同时count(distinct)优化
1. 需求与现状:源表:pcup_3month_login_dtl_mes , 记录数12亿,文件数 300统计SQL: insert overwrite table pcup_logininfo_tmp partition(data_type = 1) select popt_id, null as sndaid, count(di...原创 2012-05-18 15:04:00 · 563 阅读 · 0 评论 -
hive中合理使用union all与multi insert
对同一张表的union all 要比多重insert快的多, 原因是hive本身对这种union all做过优化,即只扫描一次源表; http://www.apacheserver.net/How-is-Union-All-optimized-in-Hive-at229466.htm 而多重insert也只扫描一次,但应为要insert到多个分区,所以做了很多其他的事情,导致消耗的时间非常长;...原创 2012-05-21 16:53:12 · 111 阅读 · 0 评论 -
HBase基本命令备忘
名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count '表名称'删除记录delete '表名' ,'行名称' , '列名称'删...原创 2012-06-14 17:09:47 · 72 阅读 · 0 评论 -
hive权限控制---限定用户的某些操作权限
package com.lxw.hive;import org.apache.hadoop.hive.ql.parse.ASTNode;import org.apache.hadoop.hive.ql.parse.AbstractSemanticAnalyzerHook;import org.apache.hadoop.hive.ql.parse.HiveParser;...2012-06-05 16:31:57 · 81 阅读 · 0 评论 -
hive--Sort Merge Bucket Map Join
Bucket Map Join 1. 测试1:两个1亿多记录的表,不存在数据倾斜与笛卡尔积,测试下来与普通的join差不多; 2. 测试2:一个4000万和一个5000多万的表join,关联键数据倾斜,并且笛卡尔积,效果明显; create table lxw_test(imei string,sndaid string,data_time string)C...原创 2012-05-30 19:31:25 · 141 阅读 · 0 评论 -
单独启动datanode和tasktracker遇到的小问题
在测试集群上拉了5台机器,自己另外搭建了一个小集群,不影响原来的集群。 1.规划,jobtracker一台,namenode一台,datanode三台,secondNamenode和网关机一台 2.新建用户lxw,并打通无密码ssh 3.安装版本0.20.2 完成之后先启动namenode和jobtracker,接着启动一台datanode时候报错 2012...原创 2012-05-28 19:45:29 · 98 阅读 · 0 评论