hadood/spark
文章平均质量分 85
普通网友
这个作者很懒,什么都没留下…
展开
-
hive基础总结--数据库,表,导入数据
常用的配置信息含义: hive.metastore.warehouse.dir 数据仓库存放在位置 set hive.matestore.warehouse.dir=/user/hive/warehouse mysql存放元数据,如表的分区和模式。 hive –e “语句” 执行一条语句;一次使用的的命令 hive –f “文件”执行一个文件;从文件中执行hive查询 hive> so原创 2016-07-01 20:32:08 · 989 阅读 · 0 评论 -
Hive SQL的编译过程
转载于 http://tech.meituan.com/hive-sql-to-mapreduce.html Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇转载 2016-06-28 14:45:40 · 224 阅读 · 0 评论 -
hive null和创建表的模板
最近,一直在写 hive 1)create_table LZO格式 1. 建议:shell名称为hive表名,采用此模板仅需二步 a) 编辑字段信息;b) 指定分区信息; 2. 运行shell,请使用全路径,如 sh/data3/dmp_online/dmp/dw/mds/purpow/create_table/mds_dm_purpow_source_his.sh; 3.原创 2016-05-11 22:34:01 · 670 阅读 · 0 评论 -
实习---pv uv ,SHELL syntax error:unexpected end of file,SQL语句执行顺序
一、曝光pv ,uv 点击pv , uv 1) PV访问量(Page View),即页面访问量,每打开一次页面PV计数+1,刷新页面也是。 2) UV访问数(UniqueVisitor)指独立访客访问数,一台电脑终端为一个访客。 3) 点击pv 和uv 是一定要有先曝光,才能有点击,所以,要用hive做个连接,并且,在计算点击一天的点击pv和uv时,曝光表连接原创 2016-05-11 22:08:37 · 413 阅读 · 0 评论 -
hive优化之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 2. 举例: a) 假设input目录下有1个转载 2016-04-23 19:58:36 · 207 阅读 · 0 评论 -
彻底了解mapreduce核心Shuffle
mapreduce是hadoop的核心之一,mapreduce经常让我们产生各种困惑,我们只是知道什么是map,什么是renduce,甚至我们已经熟悉了mapreduce编程,但是内部的原理还是不明白。下面在回帖中,给大家解决部分问题。更多问题有待挖掘。 1.Shuffle的定义是什么? 2.map task与reduce task的执行是否在不同的节点上? 3.Shuffle产生的意义是什转载 2016-04-20 20:41:09 · 219 阅读 · 0 评论