自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

涤生大数据

在职大数据架构专家,擅长大数据开发,组件调优,集群运维架构。当前管理1500+节点大数据集群,100PB+数据,爱好python,爬虫。免费给所有转行大数据小白,大数据初级开发者提供职业规划和学习定制建议,欢迎大家交流

  • 博客(6)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 Hive内嵌表生成函数UDTF:explode,posexplode,json_tuple,parse_url_tuple,stack

0.Hive内嵌表生成函数Built-in Table-Generating Functions (UDTF)普通的用户定义函数,如concat(),接受单个输入行并输出单个输出行。相反,表生成函数将单个输入行转换为多个输出行 Row-set columns types Name(Signature) Description T explode(ARRAY<T> a) E

2020-07-06 19:55:58 3165

原创 Hive内嵌字符处理函数:get_json_object,parse_url

1.Hive内嵌函数对Json字符和网址的解析处理 Return Type Name(Signature) Description string parse_url(string urlString, string partToExtract [, string keyToExtract]) Returns...

2020-07-06 19:08:42 2221

原创 Hive内嵌字符处理函数:regexp_extract,regexp_replace,split,replace,translate

1. Return Type Name(Signature) Description regexp_extract(string subject, string pattern, int index) Returns the string extracted using the p...

2020-07-06 18:25:56 5061

原创 Hive内嵌集合函数:size,map_keys,map_values,array_contains,sort_array等详解

0.hive官方函数解释 hive官网函数大全地址:HIVE官网函数大全地址Collection Functions Return Type Name(Signature) Description int size(Map<K.V>) Returns the number of elements in the map type. int ...

2020-07-06 17:42:15 10785

原创 真正让你明白Hive调优系列3:笛卡尔乘积,小表join大表,Mapjoin等问题

0.Hive中的优化分类 真正想要掌握Hive的优化,要熟悉相关的MapReduce,Yarn,hdfs底层源码,明晰Hive的底层执行流程。真正让你明白Hive调优系列,会征对下面分类逐一介绍。大类1:参数优化文件输入前看是否需要map前合并小文件 控制map个数,根据实际需求确认每个map的数据处理量,split的参数等 Map输出是否需要启动压缩,减少网络传输,OOM处理等 控制redcue个数,控制每个reduce的吞吐量,OOM处理等 是否将common-join转换成...

2020-07-04 20:39:09 9134 4

原创 大多数开发人员都弄错的Hive与MapReduce小文件合并问题

进来公司搞小文件治理(小于10Mb),小文件太多的危害就不此赘述了。公司的开发人员提供的小文件治理配置如下:-- 设置小文件合并set hive.merge.mapfiles=true;set hive.merge.mapredfiles=true;set hive.merge.size.per.task = 256000000 ;set hive.merge.smallfiles.avgsize= 256000000 ; 看上去配置的没啥问题,不管是Map-only,还...

2020-07-02 22:58:00 6511 7

阿里里巴巴企业数据安全中的数据脱敏实践.pdf

企业数据安全中的数据脱敏 阿里巴巴

2021-09-10

腾讯大数据安全体系架构与介绍.pdf

腾讯大数据安全体系介绍

2021-09-10

Python3.5官方文档中文版本chm格式

python3.5版本,官方文档中文版,已经 集成为chm格式,直接打开即可使用,更加方便好操作。免费下载吧

2018-09-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除