自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

晴天小雨的博客

这是编程的起点,也将成为奇点!因为热爱,所以坚持!

  • 博客(5)
  • 收藏
  • 关注

原创 Hive静态分区和动态分区

Hive分区的作用如果没有分区的存在,那么每次查询Hive将会进行全表扫描。对于小数据量的表来说,全表扫描并不会慢到无法忍受,但是对于大数据量来讲,比如几年的数据,每次查询都要扫描几年的所有数据,除了浪费时间之外,还浪费集群资源。为了改进这一问题,分区的价值就体现出来了。对于几年的数据,在设计Hive表的时候,可以将时间设计为分区字段,至于时间维度细到怎样的颗粒度,以业务需求为准。就这样,分区的...

2020-04-10 23:11:59 423

原创 Hive文件格式及数据导入导出

Hive文件格式TEXTFILE默认格式,数据不进行任何压缩存储方式:行存储磁盘开销大,数据解析开销大Hive不会对其进行切分,无法对数据进行并行操作SEQUENCEFILE二进制文件,以<key,value>形式序列化到文件中存储方式:行存储可分割、可压缩。支持三种压缩方式:NONE,RECORD,BLOCK。Record压缩率低,一般选择block压...

2020-04-09 23:58:33 1398

原创 Hive数据库和表操作

在进行数据库或者表操作时,需要注意以下事项- 注意基本语法中()表示必须参数,[]表示可选参数- 各种语法中,若执行失败,除了检查语法正确与否之外,还需注意版本是否支持- 在进行删除、清空等操作时,需要考虑一旦操作失误造成的影响- 数据库命令规则:ods/dws/等- 表格命名规则:库名_主题域_主题_主体_后缀,如dws_trade_user_refund_y数据库操作数据库创...

2020-04-08 10:11:21 248

原创 Hive数据类型

Hive简介基于Hadoop的数据仓库,并以Hadoop中的HDFS为数据存储,由YARN集群进行资源调度将结构化的数据映射为一张数据库表,并提供HQL查询功能适合大数据量的离线处理Hive数据类型数字类类型长度备注TINYINT1字节有符号整数,从-128到127SMALLINT2字节有符号整数,从-32768到32767INT/INT...

2020-04-07 00:28:05 155

原创 1年时间的自我蜕变:从传统医药行业数据分析跨越到互联网大数据分析与挖掘

从毕业到现在,工作将近6年。人生中的第一个5年已经过去,而目前的状态仍不是我想要的理想状态,借此放假的时间,对自己的第一个5年工作历程做一个总结,顺带分享,希望给自己带来思考的同时也能对他人有所帮助。差点成了网易客服可能很多人难以想象,一个从广州中医药毕业的制药工程的学生,会从事互联网大数据分析与挖掘的工作,说起来连我都不敢相信。每当有同事好奇,得知我专业的时候,...

2020-04-05 16:59:53 644

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除