![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
月夜楓
这个作者很懒,什么都没留下…
展开
-
hadoop集群搭建过程
设置ssh免密码登陆:1,修改host文件(用root账号):设置ip的别名:127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain61原创 2017-10-16 20:45:22 · 226 阅读 · 0 评论 -
hadoop的archive归档和CombineFileInputFormat的使用
在使用mapreduce进行计算的时候,有时候会因为小文件过多,导致map任务过多,用下面的方式(CombineFileInputFormat),可以减少map数量:http://www.cnblogs.com/skyl/p/4761662.html 原来flume上传好多个小文件,但是hdfs的块儿大小设置为64M,而hadoop一直非常讨厌小文件,因为小文件会占用大量的namenode空间,我原创 2017-10-16 20:47:58 · 232 阅读 · 0 评论 -
IBM几个电话面试问题
桶的概念;hive各个stage是如何划分的;sqoop中的-m参数的设置,及其会出错的原因;什么情况下oracle的数据需要回传到hive中;hive输出文件的个数是如何决定的;如何将所有的输出文件合并,并且作为第二个mapreduce任务的输入;如何来公用一个变量,它的变化在每个mapreduce中都能被看到;哎,回答的惨不忍睹啊!没心没肺的人啊,让你不好好看书!原创 2017-10-16 20:47:15 · 1242 阅读 · 0 评论 -
hive的一些知识
hive的基本类型:TINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRING 一般多表连接时,数据量大的表放最后hive中,用left semi join 替换exists;用left outer join .... xxfield is null;替换not exist ;alter table log_login add partition(part=2原创 2017-10-16 20:47:12 · 141 阅读 · 0 评论 -
sqooooop命令总结:
sqoop import --append \--connect jdbc:oracle:thin:@$ip:$port:$sid \--username $userName \--password$ password \--table `echo "$tableName" | tr a-z A-Z` \--where "create_time >= to_date('2014-07-24','y原创 2017-10-16 20:47:09 · 212 阅读 · 0 评论 -
oracle的instr函数在hive上面的实现
Oracle的instr函数,已经在hive上面做了相应的实现,使用方法如下:在使用该方法的hsql脚本中或者hive客户端中,加入如下命令:add jar/opt/hive/hive-0.10.0-cdh4.5.0/lib/function.jar;create temporary function instr as'net.fone.www.function.udf.Instr原创 2017-10-16 20:47:06 · 6676 阅读 · 0 评论 -
使用hive自定义函数pom.xml的写法
在搭建hive自定义函数的maven环境中,开始报错:Missing artifact javax.jdo:jdo2-api:jar:2.3-ec然后开始加入jdo2-api 2.3-ec的dependency,结果还是报错,最后觉得还是pom.xml中hive版本与其他依赖不兼容的问题,于是找到了如下兼容的pom.xml,记录下吧: xsi:schemaLocation="http://mav原创 2017-10-16 20:47:03 · 2772 阅读 · 0 评论 -
Hadoop中Speculative Task调度策略
转自:http://dongxicheng.org/mapreduce/hadoop-speculative-task/1. 背景Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task原创 2017-10-16 20:46:48 · 372 阅读 · 0 评论 -
hwi(hive web interface)-hive web页面的搭建
hwi(hive web interface)是hive命令行接口的一个补充,主要功能包括:1.shema browsing :获取table的信息,包括serde、columen name、column type2.detached query execution:在hive命令行界面,用户如果需要执行多个查询,则需要同时打开多个命令行界面。hwi允许用户同时开始多个查询,并且查看执行状态。3.原创 2017-10-16 20:46:45 · 1951 阅读 · 1 评论 -
hive 优化
Hive官方:https://cwiki.apache.org/confluence/display/Hive/Home1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);1原创 2017-10-16 20:46:25 · 307 阅读 · 0 评论 -
HADOOP常用命令
1.查看所有正在运行的Job Hadoop job -list2.根据Id停止某一个Job Hadoop job –kill hadoop fs -du -h /user 查看hadoop磁盘的使用情况3.hadoop启动与停止脚步(7) 启动HDFS你可以使用以下命令分别启动NameNode和DataNode:bin/hadoop namenode -formatsbin/hadoop-da原创 2017-10-16 20:45:45 · 191 阅读 · 0 评论 -
hadoop原理
http://www.cnblogs.com/forfuture1978/archive/2010/11/14/1877086.htmlhttp://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/http://www.infoq.com/cn/articles/LuceneHbasehttp://www.javabloger.com原创 2017-10-16 20:45:35 · 117 阅读 · 0 评论 -
Zookeeper 安装
Zookeeper 安装由 xpproen 创建,youj 最后一次修改 2017-10-27 18:13:17在安装ZooKeeper之前,请确保你的系统是在以下任一操作系统上运行:任意Linux OS - 支持开发和部署。适合演示应用程序。Windows OS - 仅支持开发。Mac OS - 仅支持开发。ZooKeeper服务器是用Java创建的,它在JVM上运行。你需要使用JDK 6或更高...原创 2018-05-29 14:40:52 · 256 阅读 · 0 评论