hive
hive踏千浪
0.07M
爱诗词的代码人
展开
-
基于大数据的用户画像构建(理论篇)
什么是用户画像?简而言之,用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。举例来说,如果你经常购买一些玩偶玩具,那么电商网站即可根据玩具购买的情况替你打上标签“有孩子”,甚至还可以判断出你孩子大概的年龄,贴上“有 5-10 岁的孩子”这样更为具体的标签,而这些所有给你贴的标签统在一次,就成了你的用户画像,因此,也可以说用户画像就是判断一个人是什么样的人。除去“标转载 2020-06-23 15:45:49 · 953 阅读 · 0 评论 -
hadoop中小文件的处理思路
1 小文件的出现原因 hadoop存储数据是按block存储的,现在默认是128M问一个文件块,一个文件块对应一个maptask。但是,读取的文件如果是200M等非128的倍数的文件块,客户端切分数据必然会产生小的数据块。2小文件造成的问题 这些小的数据块的元数据信息(位置,大小,名称)等都要保存到namenode中,若大量的小文件快信息保存在namnode中会占用很大的服务器内存,如果服务器在此启动要重新加载这些元数据信息到内存中必然要花费很长时间。 同时maptas...原创 2020-06-04 19:35:49 · 241 阅读 · 4 评论 -
Hive学习笔记(一)——原理和体系架构
目录一 hive是什么?二 为什么会出现hive?三 hive 为什么适合数据仓库应用程序?四 hive与传统关系型数据库的比较五 hive的体系架构hive体系架构的组成部分:1 用户接口2 跨语言服务 thrift server3 Driver (底层)4 元数据存储系统六 hive的执行流程一 hive是什么?1:hive是构建在hdfs...原创 2019-05-06 19:35:13 · 345 阅读 · 0 评论 -
Hive学习笔记(二)——数据模型
一 hive 的五种数据模型1 内部表1)创建内部表相当于MySQL的表 默认存储为的HDFS的目录 /user/hive/warehousecreate table emp (empno int, ename string, job string, mgr int, hiredate string, sal int, comm int, ...原创 2019-05-07 18:30:09 · 205 阅读 · 0 评论 -
Hive学习笔记(三)——shell命令行
1 hive与非交互式模式命令行hive -e:从命令行执行指定的HQL,不需要分号:hive -e ‘select * from dumy limit 100’ >a.txthive -f :执行HQL脚hive -f /home/my/hive-script.sql3) hive -i :进入Hive交互Shell时候先执行脚本中的HQL语句hive -i /ho...转载 2019-05-12 18:47:26 · 414 阅读 · 0 评论 -
Hive学习笔记(四)——优化篇1
案例:https://www.jianshu.com/p/8e2f2f0d4b6c1 修改map和reduce的个数2 mapjoin 大小表的join3 join4 数据倾斜原创 2019-05-16 12:09:27 · 264 阅读 · 0 评论 -
Hive学习笔记(五)——优化篇2
JOIN优化大小表优化大小表优化指的是在2张或2张以上的表进行join的时候,要保证连续查询中的表的大小从左到右依次是增加的。这样hive会将小表保存到内存中,Hive 可以在map端执行连接的过程,与内存中的小表进行逐一篇匹配,从而省略掉常规操作所需的的reduce过程。第一种写法是按大小表位置来写,即小表写在前,大表写在后divedends为小表 ;stocks为大表SELECT s...原创 2019-08-12 15:43:33 · 222 阅读 · 0 评论