hive
文章平均质量分 78
大龄下岗程序员
大龄下岗程序员,将毕生绝学,经验,技巧,职场套路,毫无保留全部分享
展开
-
Hive快捷查询:不启用Mapreduce job启用Fetch task三种方式介绍
1.什么情况下,可以不启用MapReduce Job? 2.方法1通过什么方式,不启用job? 3.bin/hive --hiveconf hive.fetch.task.conversion=more的作用是什么? 4.如果一直开启不使用MapReduce Job,该如何配置? 如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下:转载 2015-03-27 10:56:58 · 876 阅读 · 0 评论 -
Hive中的排序语法
Hive配置中有个参数hive.mapred.mode,分为nonstrict,strict,默认是nonstrict 如果设置为strict,会对三种情况的语句在compile环节做过滤: 1. 笛卡尔积Join。这种情况由于没有指定reduce join key,所以只会启用一个reducer,数据量大时会造成性能瓶颈 ? 1 2 3 4 ...转载 2015-04-26 20:35:45 · 2591 阅读 · 0 评论 -
Hive Hbase区别
Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pig就转载 2015-04-20 17:14:32 · 570 阅读 · 0 评论 -
mysql 启动错误
linux mysql 启动错误原创 2015-04-12 11:12:55 · 948 阅读 · 0 评论 -
hive 外部表
1.创建 外表 hive> create external table bbb (id int,name string) row format delimited fields terminated by ' ' location '/bbb'; 2.此时表中没有数据,mysql存在此表原创 2015-03-30 14:55:31 · 571 阅读 · 0 评论 -
hive 分表
普通表和分区表区别:有大量数据增加的需要建分区表 1.创建分表,目的 就是操作数据量大的时,crud时比较方便,可以快速定位。 hive>create table book (id bigint, name string) partitioned by (bookIndex string) row format delimited fields terminated by ' '; 2. 此原创 2015-03-30 15:02:23 · 1630 阅读 · 0 评论 -
Hive整理
1.Hive是什么? 2.Hive作用是什么? 3.为什么用它,它的好处? 1.Hive是什么? Hive 是建立在hadoop架构上的数据仓库工具。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据,两个库的设计需求不一样,数据库是为获取数据而设计,数据仓库是为分析数据而设计,那这样不就可以获取数据库中数据进行分析了?你只要与数据库对接就行,你直接采集数据库的数据,你直原创 2015-03-27 09:22:31 · 510 阅读 · 0 评论 -
hive sql
目录 一、关系运算:... 4 1. 等值比较: =. 4 2. 不等值比较: 3. 小于比较: 4. 小于等于比较: 5. 大于比较: >. 5 6. 大于等于比较: >=. 5 7. 空值判断: IS NULL. 5 8. 非空判断: IS NOT NULL. 6 9. LIKE比较: LIKE. 6 10. JAVA的L原创 2015-04-22 14:41:38 · 4351 阅读 · 0 评论 -
hive 分区表、外部表、桶表
1:分区表 图:创建分区表 图:导入数据 图:在HDFS的显示信息 分区字段就是一个文件夹的标识 图:在多列上创建分区 图:导入数据 图:在多列上建立分区后在HDFS上形成的结构信息转载 2015-03-30 17:13:04 · 970 阅读 · 0 评论 -
为什么使用Hive?Hive提供了什么?Hive支持哪些用户?
为什么使用Hive? 为什么使用Hive?那么,在哪里使用Hive呢?在载入了60亿行(经度、维度、时间、数据值、高度)数据集到MySQL后,系统崩溃了,并经历过数据丢失。这可能部分是因为我们最初的策略是将所有的数据都存储到单一的一张表中了。后来,我们调整了策略通过数据集和参数进行分表,这有所帮助但也因此引入了额外的消耗,而这并非是我们愿意接受的。 相反,我们决定尝试使用Apache Hive转载 2015-03-27 10:43:24 · 1198 阅读 · 0 评论 -
Jdbc连接Hive
public class TestHive { private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver"; public static void main(String[] args) throws SQLException { try { Class.forName(driverNam原创 2015-04-26 17:08:00 · 656 阅读 · 0 评论