![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 79
yingziorg
这个作者很懒,什么都没留下…
展开
-
hive的hive.exec.parallel参数说明
hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,默认为false.下面是对于该参数的测试过程:测试sql:select r1.afrom ( select t.a from sunwg_10 t join sunwg_10000000 s on t.a=s.b) r1 join (select s.b fr转载 2014-11-26 11:17:06 · 710 阅读 · 0 评论 -
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b转载 2014-11-26 12:37:00 · 330 阅读 · 0 评论 -
hive 创建/删除/截断 表(翻译自Hive wiki)
这里罗列常用操作,更多参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Create%2FDrop%2FTruncateTable 简单的创建表create table table_name ( id int,转载 2014-11-26 13:53:50 · 436 阅读 · 0 评论 -
hive连接mysql异常
今天配置hive连接mysql时一直报这个问题FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Access denied for user 'root'@'hadoop1' (using password: YES)NestedThrowables:java.sql.SQLException: Access de原创 2014-11-26 09:45:55 · 680 阅读 · 0 评论 -
hive文件存储格式
hive文件存储格式包括以下几类:TEXTFILESEQUENCEFILERCFILE自定义格式其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textfile表转载 2014-11-26 12:40:32 · 339 阅读 · 0 评论 -
使用FileSystem类进行文件读写及查看文件信息
这一节我们要深入了解Hadoop的FileSystem类——这是与与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现,但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性。这是非常有用的,比如说你可以非常方便的直接用同样的代码在你的本地文件系统上进行测试。使用hadoop URL读数据从hadoop文件系统中读取文件的最简单的方法转载 2014-11-22 14:15:26 · 4624 阅读 · 1 评论 -
SequenceFile文件
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。目前,也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案,他们的基本思路就是将小文件进行合并成一个大文件,同时对这些小文件的位置信息构建索引。不过,这类解决方案还涉及到Hadoop的另一种文件格式——MapFile文件。SequenceFile文件并不保证转载 2014-11-25 15:07:39 · 396 阅读 · 0 评论