spark
文章平均质量分 71
0x8g1T9E
0x8g1T9E
展开
-
pyflink pyalink pyspark on jupyter docker一键构建
https://hub.docker.com/r/hzchendou/pyalink基于jupyter镜像构建了 阿里开源 算法平台 alink, 地址:https://github.com/alibaba/alinkjupyter 镜像地址:https://hub.docker.com/r/jupyter/datascience-notebookalink 流/批处理框架使用的是 flink, 因此在镜像中配置 jdk 8环境容器运行下载镜像docker pull hzchendo原创 2021-03-11 12:09:07 · 2919 阅读 · 0 评论 -
Jupyter notebook运行Spark+Scala教程
关注公众号:宏睿时空 获取最新最好的资料这篇文章主要介绍了Jupyter notebook运行Spark+Scala教程,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧今天在intellij调试spark的时候感觉每次有新的一段代码,都要重新跑一遍,如果用spark-shell,感觉也不是特别方便,如果能像python那样,使用jupyter notebook进行编程就很方便了,同时也适合代码展示,网上查了一下,试了一下,碰到了很多坑,有些是旧的版本,还有些是版本不同导致错误..原创 2021-03-11 11:36:32 · 3923 阅读 · 0 评论 -
目前颜值最高的开源BI工具-Superset
没有声音,再好的戏也出不来同样,没有可视化,再好的数据分析也不完美数据可视化是大数据的『最后一公里』简介Superset的Airbnb开源的数据可视化工具,目前属于Apache孵化器项目,主要用于数据分析师进行数据可视化工作 PS,Airbnb在数据方面做的很棒,相关的博客B格也很高,他们的博客名字居然叫『Airbnb Engineering & Data Science』,可见对于数据科学的重视 在github上搜索数据可视化,Superset的star...原创 2021-03-08 11:29:41 · 2997 阅读 · 0 评论 -
Hadoop FS 常用命令详解
1、概述Hadoop文件系统(FS)提供了各种shell命令,与shell命令类似,可用于同分布式文件系统(HDFS)进行交互,以管理HDFS集群中的文件和数据。2、Hadoop FS常用命令(1)创建目录用法:hadoop fs -mkdir <paths>示例:创建单个目录:hadoop fs -mkdir /home/myfile/dir1创建多目录:hadoop fs -mkdir /home/myfile/dir1 /home/myfile/dir2(2.原创 2021-03-08 10:42:22 · 5182 阅读 · 0 评论 -
docker部署ambari-2.7.3(大数据集群快速搭建)大数据服务组件
之前有使用docker搭建了一套Apache Hadoop版本的大数据平台,整个编写脚本和搭建过程花了很多时间,且灵活性不好。Ambari在大数据集群部署方面有得天独厚的优势,但是集群操作系统安装准备工作以及基础包的安装还是需要花费很多的时间。为了节省大数据集群的部署时间接下来我们用Docker容器化的方案部署Ambari。费话少说,放码出来。让我们开始吧!Ambari的架构从Ambari的架构主要有两个组件:Ambari Server和Ambari Agent。Ambari架构图...原创 2021-02-24 15:48:48 · 4232 阅读 · 1 评论 -
Spark大型电商项目实战 Spark机器学习库(MLlib)官方指南手册中文版
https://github.com/horysk/SprakProjecthttps://blog.csdn.net/u012318074/category_6744423.html原创 2021-03-05 11:42:53 · 2587 阅读 · 0 评论