自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Hive的优化

1.MapJoinsethive.auto.convert.join=true;hive.mapjoin.smalltable.filesize默认值是25mb如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。2.采用分桶技术分桶是对数据垂直切分,字段是实字段,适合易于垂直切分.

2020-08-10 11:14:21 178

原创 hive 中排序的区别

1)SortBy:分区内有序;2)Order By:全局排序,只有一个Reducer;3)Distrbute By:类似MR中Partition,进行分区,结合sort by使用。4)Cluster By:当Distribute by和Sorts by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序,不能指定排序规则为ASC或者DESC...

2020-08-10 10:37:08 114

原创 Flume小结

1)Flume组成Flume是由source、channel、sink组成。开发中经常用到的组件:Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。File Channel:数据存储在磁盘,但是传输速率慢。适合对数据传输可靠性要求高的场景,比如,金融行业。Memory Channel:数据存储在内存中,传输速率快。适合对数据传输可靠性要求不高的场景,比如,普通的日志数据。Kafka Channel:减少了

2020-08-04 16:11:00 163 1

原创 hive的窗口函数的使用

0: jdbc:hive2://localhost:10000> select * from t_access;+----------------+---------------------------------+-----------------------+--------------+--+| t_access.ip | t_access.url ...

2019-04-09 17:03:49 214

原创 hive的自定义函数的区别

HIVE自定义函数之UDF,UDAF和UDTF的区别:UDF输入一行数据输出一行数据。java代码中用户必须要继承UDF,且必须至少实现一个evalute方法。UDAF输入多行数据输出一行数据,一般在group by中使用。java代码中Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数init初始化,i...

2019-04-09 16:54:03 392

转载 hive的安装及使用

1.什么是hive1.1.hive基本思想Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.2.为什么使用HiveØ直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大Ø为什么要使用Hive操作接口采用类S...

2019-04-09 16:50:34 504

原创 hive 多个方面的优化

一、hive表优化分区:静态分区动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;分桶:set hive.enforce.bucketing=true;set hive.enforce.sorting=true;二、hive sql...

2019-04-09 16:44:50 193

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除