2019年07月_wang_306

08月 07月 05月 03月 01月

原创 spark使用独立的Python环境提交任务

背景由于需要在公司的大数据平台上使用自己的Python环境，折腾了很久，特此记录先说几个坑：需要注意版本，不同的spark版本会有些不同，当前我的spark版本是2.2.1，如果以下的方式不生效，记得先看看版本；由于公司平台的环境是离线的，pip down下载的包是需要和硬件架构匹配的，我在mac上pip down的包拿到Linux下是无法正常安装的，建议看一下这篇文章的介绍：htt...

2019-07-30 10:31:09 5759 12

原创 pyspark中timestamp字段类型过滤的细节

背景假设存在以下数据，且time_stamp列的schema为TimeStamptime_stampFeature2019-07-22 00:00:00.044A2019-07-22 00:00:00.056B2019-07-22 00:00:01.090B2019-07-22 00:00:01.099A2019-07-22 00:00:02...

2019-07-23 16:34:00 2026

原创 pyspark下kafka+streaming落地数据到HIVE中

网上查找的kafka通过spark streaming落地到HIVE的方案一般都是Scala写的，为此碰到了很多的坑，特此记录一下使用pyspark来实现实时落地到HIVE的方案说在前面spark Streaming 接受kafka的数据落地HIVIE有2个原生的问题偏移量管理问题：一般建议都是使用直连的方式连接kafka，而不是接收器的方式，所以需要直接来管理偏移量小文件问题：每个...

2019-07-03 17:24:19 2183 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人