Spark
我还要去追逐我的梦
热衷于云计算基础架构、基于联盟链的技术应用,大数据数据分析处理、DevOPS。感兴趣的领域有Java、C/C++、Python、Rust、Go、Delphi等语言、数据库、NoSQL、OOP、重构与模式以及敏捷开发等
展开
-
大数据学习整理篇(三)Ubuntu 16.04 Server版安装Kudu,Impala,Spark 2.3.4,以及Scala语言使用Spark RDD访问HBase
1.Kudu安装,先建议全部使用root安装在/etc/apt/sources.list.d目录下,先备份移除ambari-hdp1.list,以及其他HDP相关的仓库信息,再新增文件cloudera.list,内容如下# Packages for Cloudera's Distribution for Hadoop, Version 5, on Ubuntu 16.04 amd64 deb [arch=amd64] http://archive.cloudera.com/kudu原创 2020-07-21 12:56:18 · 412 阅读 · 0 评论 -
Spark-2.4.5官方文档说明-Ubuntu运行示例(二)
运行Quick Start的Java和Python示例运行Python示例Python示例的时候会报下面这个错,执行pyspark报错env: ‘python’: No such file or directory问题https://blog.csdn.net/qq_42881421/article/details/88069211运行下面的示例,如果使用spark-submit命...原创 2020-03-18 17:56:28 · 319 阅读 · 1 评论 -
Spark-2.4.5官方文档说明(一)
具体文字请自己阅读https://spark.apache.org/docs/latest/index.html注意几点:1.先安装并解压spark-2.4.5-bin-hadoop2.7.tgz文件,使用命令#>tar -xzvf 文件名进行解压。在看后续的程序指南(Programming Guides)Where to Go from HereProgramming ...原创 2020-02-25 16:42:56 · 1007 阅读 · 0 评论 -
Spark 如何写Java客户端代码(成功版)(四)
1.Spark环境准备,参考我之前写的文章https://blog.csdn.net/penker_zhao/article/details/102549636,可以自己用VirtualBox虚拟一个CentOS,也可以购买腾讯云或者其他云主机。2.Spark脚手架程序https://github.com/astra-zhao/hui-bigdata-spark运行完后,进入到hu...原创 2019-11-15 11:55:04 · 404 阅读 · 0 评论 -
Spark 概念介绍(三)
所有内容来自:https://www.cnblogs.com/qingyunzong/一、RDD的概述1.1 什么是RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行...原创 2019-10-18 17:28:48 · 149 阅读 · 0 评论 -
Spark 2.4.4在CentOS 7.6开启运行单机版,并Java客户端连接单机版-成功版(二)
大家运行spark-shell并不是Spark真正运行,需要运行spark-all.sh,在运行之前,还要运行下面几个步骤:配置Spark进入 ${SPARK_HOME}/conf 目录查看拷贝 spark-env.sh.template 为 spark-env.sh拷贝 slaves.template 为 slavescp spark-env.sh.template spar...原创 2019-10-15 16:15:38 · 523 阅读 · 0 评论 -
Spark 2.4.4在CentOS 7.6安装并运行(一)
1.安装JDK 8先看看系统有没有安装jdk[root@lch software]# rpm -qa |grep java如果有,则需要先卸载[root@lch software]# rpm -qa | grep java | xargs rpm -e --nodeps检索yum中有没有1.8的相关安装包[root@lch software]# yum list java-...原创 2019-10-15 15:48:44 · 651 阅读 · 0 评论 -
Spark 2.4.4在Windows 10安装并运行
1.首先到http://spark.apache.org/downloads.html下载spark-2.4.4-bin-hadoop22.7.tgz版本2.然后下载scala的windows版本下载scala-2.13.1.zip版本,下载完后,设置SCALA_HOME,并在path目录下加入%SCALA_HOME%\bin3.下载https://github.com/s...原创 2019-10-11 19:01:04 · 1107 阅读 · 0 评论