- 博客(6)
- 收藏
- 关注
原创 Hive静态分区和动态分区
Hive分区的作用如果没有分区的存在,那么每次查询Hive将会进行全表扫描。对于小数据量的表来说,全表扫描并不会慢到无法忍受,但是对于大数据量来讲,比如几年的数据,每次查询都要扫描几年的所有数据,除了浪费时间之外,还浪费集群资源。为了改进这一问题,分区的价值就体现出来了。对于几年的数据,在设计Hive表的时候,可以将时间设计为分区字段,至于时间维度细到怎样的颗粒度,以业务需求为准。就这样,分区的...
2020-04-10 23:11:59 425
原创 Hive文件格式及数据导入导出
Hive文件格式TEXTFILE默认格式,数据不进行任何压缩存储方式:行存储磁盘开销大,数据解析开销大Hive不会对其进行切分,无法对数据进行并行操作SEQUENCEFILE二进制文件,以<key,value>形式序列化到文件中存储方式:行存储可分割、可压缩。支持三种压缩方式:NONE,RECORD,BLOCK。Record压缩率低,一般选择block压...
2020-04-09 23:58:33 1401
原创 Hive数据库和表操作
在进行数据库或者表操作时,需要注意以下事项- 注意基本语法中()表示必须参数,[]表示可选参数- 各种语法中,若执行失败,除了检查语法正确与否之外,还需注意版本是否支持- 在进行删除、清空等操作时,需要考虑一旦操作失误造成的影响- 数据库命令规则:ods/dws/等- 表格命名规则:库名_主题域_主题_主体_后缀,如dws_trade_user_refund_y数据库操作数据库创...
2020-04-08 10:11:21 253
原创 Hive数据类型
Hive简介基于Hadoop的数据仓库,并以Hadoop中的HDFS为数据存储,由YARN集群进行资源调度将结构化的数据映射为一张数据库表,并提供HQL查询功能适合大数据量的离线处理Hive数据类型数字类类型长度备注TINYINT1字节有符号整数,从-128到127SMALLINT2字节有符号整数,从-32768到32767INT/INT...
2020-04-07 00:28:05 160
原创 1年时间的自我蜕变:从传统医药行业数据分析跨越到互联网大数据分析与挖掘
从毕业到现在,工作将近6年。人生中的第一个5年已经过去,而目前的状态仍不是我想要的理想状态,借此放假的时间,对自己的第一个5年工作历程做一个总结,顺带分享,希望给自己带来思考的同时也能对他人有所帮助。差点成了网易客服可能很多人难以想象,一个从广州中医药毕业的制药工程的学生,会从事互联网大数据分析与挖掘的工作,说起来连我都不敢相信。每当有同事好奇,得知我专业的时候,...
2020-04-05 16:59:53 645
原创 认识Python
无论学习什么语言,个人认为,了解它的起源和历史,可以很好地帮助我们了解语言规则和设计的最初灵感,可以了解作者的初衷以及为什么要那样去设计等等。
2018-07-29 11:48:23 597
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人