自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

浪荡江湖的博客

我本将心向明月,奈何明月照沟渠

  • 博客(4)
  • 收藏
  • 关注

原创 logstash之嵌套复杂json解析及扁平化处理

近期公司有一个需求是使用logstash将复杂的嵌套json扁平化(将原来的多层json映射成单层json,其中的key通过下划线'_'连接),并写入s3。据我以往的经验我推测应该有两种方案可行,其中方案一代码简单,但缺点很多,方案二简单高效,但网上没有现成的,我以往也没有使用过,通过google也只google到event.to_hash这个稍微有用的方法,这也是我分享的原因,望对有类似需求的朋...

2019-04-28 15:42:25 6652 5

原创 大量列parquet文件Merge实践

一、背景    当parquet文件列巨大时,比如10000个列时,使用spark sql下的DataFrame api合并parquet小文件会非常慢,因为它会将parquet的列转成行,而不管该列是否有值,这反而失去了parquet列式存储的优势。故简单的Spark sql DataFrame实现的parquet Merge合并将不再实用,而网上搜索出来的不管是博客还是论坛等几乎都是千篇一律的...

2018-05-01 16:43:50 5775 1

原创 Hive on Spark及Spark on Hive实践

一、Hive安装(以Hive2.1.1为例,安装在/usr/local/apache-hive-2.1.1-bin目录下)1.官方下载预安装hive版本安装包apache-hive-2.1.1-bin.tar.gz2.解压安装包到安装目录,具体指令:    tar –zxvf apache-hive-2.1.1-bin.tar.gz –C /usr/local/apache-hive-2.1.1-...

2018-05-01 15:12:16 21142 9

原创 Apache Drill介绍-SQL语句和系统表查询

Apache Drill介绍-SQL语句和系统表查询 Apache Drill 主要用于查询,主要关注select 和 建表语句,Drill 支持select 很标准, 这次主要介绍create语句, Drill可使用的SQL语句: 系统设置语句 ALTER SESSION ALTER SYSTEM ALTER SYSTEM RESETALTER SYSTE...

2018-05-01 15:34:50 1691

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除