pyspark 之 Structured Streaming
主要是Spark中的流式数据处理日常使用笔记
尼克不可
有事联系qq1439952134
展开
-
SSS —— Spark Structured Streaming 之单列拆分成多列
前言:你既然点开了这篇文章,说明你正在有将一列拆分成多列的需求,因为在博主前面一篇入门Spark Structured Streaming 中已经说了,在结构化流编程当中我们受到了很多的限制,就比如很多的静态的DataFrame方法在这个上面并不能使用,这就给开发上带来了很多的困扰,今天这篇文章就来讲一讲如何将一列变成多列.一. 分割函数既然要一变多那肯定少不了分割函数 ,在Spark SQ...原创 2020-04-26 16:13:58 · 1462 阅读 · 0 评论 -
SSS —— Spark Structured Streaming 之理解与入门
前言:最近一直忙着写项目的事情,有两天没写博客了,今天抽空来写一下博客,刚好最近也都在用Spark的这个东西,也算做一下笔记吧;唉~ Structured Streaming的学习之路可谓是步履艰辛啊,因为这个东西是Spark还没退出多久的一个概念,网上基本没有什么教程,在官方的文档上也只有一个 WordCount 的示例;博主在学习这个东西的时碰到问题,也基本上都是在StackOverflo...原创 2020-04-26 16:08:36 · 546 阅读 · 0 评论 -
PySpark 环境还在pip安装?
前言:可能在看到这篇文章以前,你或许一直在使用pip install 的方式来安装pyspark,有时会因为安装版本的不一致导致各种各样的错误发生,今天你狠幸运,看到了这篇文章,这里就来讲述一下Spark 的 python 开发环境搭建(注意前提是你已经安装好了spark,没安装也不要紧,可以看博主的往期的文章Spark 伪分布式搭建),好了下面进入今天的正题:一.使用本地Shell这个很简...原创 2020-04-26 12:46:31 · 5871 阅读 · 3 评论 -
NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java c
在Spark运行时出现下面提示NativeCodeLoader:62 - Unable to load native-hadoop library for your platform… using builtin-java classes where applicable这是一个WRAN提示,当然肯定不影响程序的运行,但终究还是看着不爽.其实这条异常信息的意思就是说它找不到Hadoop的原生...原创 2020-04-20 18:31:50 · 1605 阅读 · 0 评论 -
Your hostname, xxx resolves to a loopback address: 127.0.1.1; using x.x.x.x instead(on interface xx)
弹出的警告是这样的:20/04/22 14:47:32 WARN util.Utils: Your hostname, zh123-PC resolves to a loopback address: 127.0.1.1; using 192.168.0.103 instead (on interface enp3s0f1)20/04/22 14:47:32 WARN util.Utils: ...原创 2020-04-22 15:17:55 · 7834 阅读 · 3 评论 -
Pysaprk sql 运行时 No module named 'col'
前言:唉~很不幸又躺了一次坑,自己在这里困惑了好久,不过吃一堑长一智,躺坑躺多了.自然而然你就成长了.不说了在这里记录一下这个坑,也好给后面的小伙伴们指条名路:是这样的我这里使用Spark 的 Struct Streaming ,说来都是累啊这个东西根本没啥教程,官网的文档也就只是说了一些简单的入门用法,但在实际开发中可谓是困难重重啊,出了问题找个解决方案太难了…正题:我的导包代码如...原创 2020-04-21 15:51:37 · 671 阅读 · 0 评论