自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 【Spark】遍历DataFrame中的每一行数据

最近遇到需求要从hive表中读取数据,并且要遍历每一行的数据,网上找了很多资料都没有解释的很清晰的,这边记录一下。一、主要思路1. 首先spark读取hive表,得到DataFrame。如果直接对spark的dataframe进行遍历的话,需要进行collect操作,这对性能消耗是非常大的,一般不建议直接对dataframe进行collect操作。2. 将DataFrame转为RD...

2020-01-28 14:11:29 23844 2

原创 Hive数据倾斜

这两天有个hive的任务跑的特别慢,看日志是reduce阶段卡在了99%,虽然任务成功了,但是总耗时4个小时。。。这肯定是无法忍受的。下面记录一下调优的过程。工作中的代码涉敏,这边用简单的示例SQL。select coalesce(a.id,b.id), age,name,course, gradefrom( select id, age, name from tab...

2020-01-17 15:52:48 1385 1

原创 Hive时间函数from_utc_timestamp 把UTC标准时间切换到北京时间

首先简单地解释下几个含义:1. 时间戳(unix timestamp)表示以(1970-01-01 00:00:00)为起点,到现在的秒数。2. GMT和UTC先说结论,UTC与GMT基本上等同,误差不超过0.9秒。GMT,即格林尼治标准时间,也就是世界时。UTC,即协调世界时。UTC现在作为世界标准时间使用。用from_utc_timestamp 把UTC标准时间切换...

2020-01-10 20:11:46 14906 4

原创 只争朝夕,不负韶华,告别2019,开启2020年新的奋斗征程!

【2019年总结】1. 有哪些进步技术方面:1)hive更加熟悉了,能够写更加复杂的sql,运用部分高级的函数(如poxexplode,lead,lag等),会写一些UDF函数(如map转string),也会简单的hive调优,且能用hive解决业务上95%的问题。2)下半年开始在工作中用到spark,虽然写的频率不是很高,但是对于spark的核心的理解以及RDD的运用操作都有更进...

2020-01-01 21:13:54 1144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除