自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 spark使用独立的Python环境提交任务

背景由于需要在公司的大数据平台上使用自己的Python环境,折腾了很久,特此记录先说几个坑:需要注意版本,不同的spark版本会有些不同,当前我的spark版本是2.2.1,如果以下的方式不生效,记得先看看版本;由于公司平台的环境是离线的,pip down下载的包是需要和硬件架构匹配的,我在mac上pip down的包拿到Linux下是无法正常安装的,建议看一下这篇文章的介绍:htt...

2019-07-30 10:31:09 5759 12

原创 pyspark中timestamp字段类型过滤的细节

背景假设存在以下数据,且time_stamp列的schema为TimeStamptime_stampFeature2019-07-22 00:00:00.044A2019-07-22 00:00:00.056B2019-07-22 00:00:01.090B2019-07-22 00:00:01.099A2019-07-22 00:00:02...

2019-07-23 16:34:00 2026

原创 pyspark下kafka+streaming落地数据到HIVE中

网上查找的kafka通过spark streaming落地到HIVE的方案一般都是Scala写的,为此碰到了很多的坑,特此记录一下使用pyspark来实现实时落地到HIVE的方案说在前面spark Streaming 接受kafka的数据落地HIVIE有2个原生的问题偏移量管理问题:一般建议都是使用直连的方式连接kafka,而不是接收器的方式,所以需要直接来管理偏移量小文件问题:每个...

2019-07-03 17:24:19 2183 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除