- 博客(3)
- 收藏
- 关注
原创 spark使用独立的Python环境提交任务
背景由于需要在公司的大数据平台上使用自己的Python环境,折腾了很久,特此记录先说几个坑:需要注意版本,不同的spark版本会有些不同,当前我的spark版本是2.2.1,如果以下的方式不生效,记得先看看版本;由于公司平台的环境是离线的,pip down下载的包是需要和硬件架构匹配的,我在mac上pip down的包拿到Linux下是无法正常安装的,建议看一下这篇文章的介绍:htt...
2019-07-30 10:31:09 5759 12
原创 pyspark中timestamp字段类型过滤的细节
背景假设存在以下数据,且time_stamp列的schema为TimeStamptime_stampFeature2019-07-22 00:00:00.044A2019-07-22 00:00:00.056B2019-07-22 00:00:01.090B2019-07-22 00:00:01.099A2019-07-22 00:00:02...
2019-07-23 16:34:00 2026
原创 pyspark下kafka+streaming落地数据到HIVE中
网上查找的kafka通过spark streaming落地到HIVE的方案一般都是Scala写的,为此碰到了很多的坑,特此记录一下使用pyspark来实现实时落地到HIVE的方案说在前面spark Streaming 接受kafka的数据落地HIVIE有2个原生的问题偏移量管理问题:一般建议都是使用直连的方式连接kafka,而不是接收器的方式,所以需要直接来管理偏移量小文件问题:每个...
2019-07-03 17:24:19 2183 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人