spark
文章平均质量分 93
广志大兄弟
The one trying to wear the crown must withstand/bear the weight
展开
-
【spark工具库】spark sql读写es操作
本文主要介绍spark sql读写es、structured streaming写入es以及一些参数的配置文章转自:https://www.cnblogs.com/upupfeng/p/12205657.htmlES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spark Support文档(文末有地址)。以下是pom依赖,具体版本可以根据自己的es和spark版本进行选择:<dependency> <groupId>org.转载 2021-03-19 16:22:37 · 2514 阅读 · 0 评论 -
cloudera manager安装CDH版本的spark 无法连接解决办法
前提:在很久很久以前,搭了一套cloudera manger 的集群,全组件安装上之后,一直没有使用spark ,安装时出现了很多问题,这个权限不足,那个权限不足的,到最后只将用的那几个组件给调试好了,其他的一直都没管。最近使用了spark 发现7077无法连接。 这个都无法连接,你让我在这上面怎么跑我风骚帅气的代码,找找原因吧。毕竟是cloudera manger安装的,而且安装过程中还出现了一...原创 2018-05-28 20:38:40 · 5524 阅读 · 3 评论 -
从无到有的搭建pyspark环境(windows10)
导航下载安装所需文件安装java环境安装python环境安装hadoop1. 首先是[下载hadoop2.6.0安装包](http://archive.apache.org/dist/hadoop/core/hadoop-2.6.0/hadoop-2.6.0.tar.gz),这里点击就可以下载。2. 下载之后进行解压到一个目录中3. 推荐目录的地址中也没有空格。4. 然后要[下载binaries]...原创 2018-12-21 10:45:38 · 611 阅读 · 0 评论 -
dataframe操作集锦(提取前几行,合并,入库等)
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中。不得不赞叹dataframe的强大...转载 2019-03-15 10:27:35 · 18368 阅读 · 0 评论