pyspark
wang_306
这个作者很懒,什么都没留下…
展开
-
pyspark中如何使用sql windows函数进行时间窗口的计算
在实际业务中,在某一行的计算需要利用到改行前后的一些信息,例如,当前时间前1天内的汇总,或当前时间前1h的最大值和当前值的差值等等在spark 1.4之后,提供了sql.windows函数,其形如:from pyspark.sql import Window>>> window = Window..partitionBy("country").orderBy("date...原创 2019-05-27 15:10:40 · 4170 阅读 · 2 评论 -
pyspark下kafka+streaming落地数据到HIVE中
网上查找的kafka通过spark streaming落地到HIVE的方案一般都是Scala写的,为此碰到了很多的坑,特此记录一下使用pyspark来实现实时落地到HIVE的方案说在前面spark Streaming 接受kafka的数据落地HIVIE有2个原生的问题偏移量管理问题:一般建议都是使用直连的方式连接kafka,而不是接收器的方式,所以需要直接来管理偏移量小文件问题:每个...原创 2019-07-03 17:24:19 · 2185 阅读 · 2 评论 -
spark使用独立的Python环境提交任务
背景由于需要在公司的大数据平台上使用自己的Python环境,折腾了很久,特此记录先说几个坑:需要注意版本,不同的spark版本会有些不同,当前我的spark版本是2.2.1,如果以下的方式不生效,记得先看看版本;由于公司平台的环境是离线的,pip down下载的包是需要和硬件架构匹配的,我在mac上pip down的包拿到Linux下是无法正常安装的,建议看一下这篇文章的介绍:htt...原创 2019-07-30 10:31:09 · 5765 阅读 · 12 评论