呵呵的简单
码龄9年
关注
提问 私信
  • 博客:1,877
    1,877
    总访问量
  • 6
    原创
  • 2,177,383
    排名
  • 2
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2016-03-10
博客简介:

huo386680070的博客

查看详细资料
个人成就
  • 获得0次点赞
  • 内容获得1次评论
  • 获得0次收藏
创作历程
  • 3篇
    2020年
  • 4篇
    2019年
成就勋章
兴趣领域 设置
  • 大数据
    hadoophivespark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive的优化

1.MapJoinsethive.auto.convert.join=true;hive.mapjoin.smalltable.filesize默认值是25mb如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。2.采用分桶技术分桶是对数据垂直切分,字段是实字段,适合易于垂直切分.
原创
发布博客 2020.08.10 ·
207 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 中排序的区别

1)SortBy:分区内有序;2)Order By:全局排序,只有一个Reducer;3)Distrbute By:类似MR中Partition,进行分区,结合sort by使用。4)Cluster By:当Distribute by和Sorts by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序,不能指定排序规则为ASC或者DESC...
原创
发布博客 2020.08.10 ·
124 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume小结

1)Flume组成Flume是由source、channel、sink组成。开发中经常用到的组件:Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。File Channel:数据存储在磁盘,但是传输速率慢。适合对数据传输可靠性要求高的场景,比如,金融行业。Memory Channel:数据存储在内存中,传输速率快。适合对数据传输可靠性要求不高的场景,比如,普通的日志数据。Kafka Channel:减少了
原创
发布博客 2020.08.04 ·
183 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

hive的窗口函数的使用

0: jdbc:hive2://localhost:10000> select * from t_access;+----------------+---------------------------------+-----------------------+--------------+--+| t_access.ip | t_access.url ...
原创
发布博客 2019.04.09 ·
232 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive的自定义函数的区别

HIVE自定义函数之UDF,UDAF和UDTF的区别:UDF输入一行数据输出一行数据。java代码中用户必须要继承UDF,且必须至少实现一个evalute方法。UDAF输入多行数据输出一行数据,一般在group by中使用。java代码中Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数init初始化,i...
原创
发布博客 2019.04.09 ·
411 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive的安装及使用

1.什么是hive1.1.hive基本思想Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.2.为什么使用HiveØ直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大Ø为什么要使用Hive操作接口采用类S...
转载
发布博客 2019.04.09 ·
517 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 多个方面的优化

一、hive表优化分区:静态分区动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;分桶:set hive.enforce.bucketing=true;set hive.enforce.sorting=true;二、hive sql...
原创
发布博客 2019.04.09 ·
204 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏