大数据
Monkey_cz
日常更博提升技术
展开
-
MapReduce计算框架详细过程
在hadoop中,MapReduce计算框架详细过程:分片:Hadoop将MapReduce的输入数据划分为等长的小数据块,称为输入分片(input split)或简称“分片”。Hadoop为每个分片构建一个map任务,并由该任务来运行用户自定义的map函数从而处理分片中的每条记录。拥有许多分片,意味着处理每个分片所需要的时间少于处理整个输入数据所花的时间。因此,如果我们并行处理每个分片,且每个分...转载 2018-02-28 22:49:35 · 8238 阅读 · 1 评论 -
hive使用简介
hive -S :进入hive的静默模式,只显示查询结果,不显示执行过程;hive -e ‘show tables’ :直接在操作系统命令下执行hive语句,不需要进入hive交互模式;source /root/my.sql; :在hive模式下使用source命令执行.sql文件; t1:创建普通表;t2:在hdfs中的指定目录创建表;t3:创建列分隔符为“,”的表;t4:使用查询语句创建有数据...转载 2018-02-28 22:56:04 · 801 阅读 · 0 评论 -
mysql中count(1), count(*), count(col)性能比较
ount(*)对行的数目进行计算,包含NULLcount(column)对特定的列的值具有的行数进行计算,不包含NULL值。count()还有一种使用方式,count(1)这个用法和count(*)的结果是一样的。性能问题1.任何情况下SELECT COUNT(*) FROM tablename是最优选择;2.尽量减少SELECT COUNT(*) FROM tablename WHERE COL...转载 2018-03-01 10:30:52 · 473 阅读 · 0 评论 -
MapReduce中join操作流程
数据准备首先是准备好数据。这个倒已经是一个熟练的过程,所要做的是把示例数据准备好,记住路径和字段分隔符。准备好下面两张表:(1)m_ys_lab_jointest_a(以下简称表A)建表语句为:[sql] view plain copycreate table if not exists m_ys_lab_jointest_a ( id bigint, name strin...转载 2018-03-01 23:16:55 · 1148 阅读 · 0 评论 -
hive中排序和聚集比较
//五种子句是有严格顺序的:where → group by → having → order by → limit//where和having的区别://where是先过滤再分组(对原始数据过滤),where限定聚合函数hive> select count(*),age from tea where id>18 group by age;//having是先分组再过滤(对每个组进...转载 2018-03-02 22:21:30 · 481 阅读 · 0 评论 -
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的设计为例)。分析一下拉链表的优缺点,并对前面的提到的一些内容进行补充说明,比如说拉链表和流水表的区别。0x01 ...转载 2018-05-27 16:28:00 · 901 阅读 · 0 评论