hadoop
文章平均质量分 67
duxianghe
这个作者很懒,什么都没留下…
展开
-
hadoop hive的安装
以下是本人hive的安装过程:hive 是Hadoop中最常用的工具,可以说是必装工具。按apache官方文档,推荐使用svn下载后编译,文档地址:https://cwiki.apache.org/confluence/display/Hive/AdminManual+Installation但build时,因为依赖关系,整了很久,下了很多包也没有成功。推荐使用tar.gz包,直接原创 2013-06-14 11:06:14 · 2031 阅读 · 0 评论 -
hive insert table的写法
hive官方文档中这样描述将数据从一个表中插入到另一个表中hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(*) WHERE a.foo > 0 GROUP BY a.bar;hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(*) FROM原创 2013-07-05 10:37:04 · 21978 阅读 · 0 评论 -
执行hive语句时报ALLOW_UNQUOTED_CONTROL_CHARS
在hive中执行普通查询没有问题。hive> select * from weblog w where w.accdate='2013-06-15' limit 20;但执行like时,就报错,select * from weblog w where w.csuristem like '%aspx' limit 20;原创 2013-07-05 10:04:31 · 2779 阅读 · 0 评论 -
Hadoop 坑爹的Be Replicated to 0 nodes, instead of 1 异常
原文地址:http://dongyajun.iteye.com/blog/1039836新的项目上线之后发现,有些会员上传资源到我们集群的速度,既然跟我们集群的吞吐量差不多,达到了70M+/s的速度。 在向集群put数据时,抛出了异常:Java代码 org.apache.hadoop.ipc.RemoteException: java.io.IOException转载 2013-07-04 17:15:15 · 1078 阅读 · 0 评论 -
Hive中SELECT TOP N的方法(order by与sort by)
原文地址:http://blog.sina.com.cn/s/blog_6ff05a2c0101eaxf.html我想说的SELECT TOP N是取最大前N条或者最小前N条。Hive提供了limit关键字,再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce,如果表的数据量很大,那么order by就会力不从转载 2013-07-04 15:27:26 · 8003 阅读 · 0 评论 -
hive中的Order By
原文地址:http://www.oratea.net/?p=622hive中的order by也是对一个结果集合进行排序,但是和关系型数据库又所有不同。这不同的地方也是两者在底层架构区别的体现。hive的参数hive.mapred.mode是控制hive执行mapred的方式的,有两个选项:strict和nonstrict,默认值是nonstrict。这个两个值对order by的转载 2013-07-04 15:29:07 · 2634 阅读 · 0 评论 -
修改dfs.relication值后如何生效
修改master节点的hdfs-site.xml文件中dfs.relication值后,重启hadoop和执行hadoop balancer,均不能使该设置生效,使用hadoop fsck /查看,Average blockreplication还是原来的值,需要按如下操作:修改hdfs文件备份系数:hadoop dfs -setrep [-R] 如果有-R将修改子目录文件的性质。原创 2013-07-03 17:39:46 · 1294 阅读 · 0 评论 -
hadoop启动报FSNamesystem initialization failed
今天从服务器上取了2个星期的日志,准备用hadoop分析一下,中间有些小插曲,分享一下。因为之前在hadoop集群之间做了ssh无密码验证,方便登陆,使用的是hadoop账号,上传ftp时,hadoop账号没有mkdir和write的权限,于是在 /etc/passwd 文件中将hadoop的权限改了。如下: hadoop:x:500:0::/home/hadoop:/bin/ba原创 2013-07-02 16:18:42 · 8761 阅读 · 0 评论 -
hive建表手记
hive 建表语法Create TableCREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY (col_name data_type[COMMENT col_co原创 2013-06-18 08:20:19 · 3176 阅读 · 1 评论 -
hadoop could only be replicated to 0 nodes instead of 1 解决方法
修改了replication后,执行hive语句报错如下:hive> select count(1) from weblog;Total MapReduce jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order to change the average原创 2013-07-04 17:12:52 · 6608 阅读 · 1 评论