Spark
文章平均质量分 52
「已注销」
https://github.com/jiaoshuhai
jiaoshuhai@gmail.com
展开
-
Spark-概述、目录文件构成、spark shell、SparkUI
1)Spark是什么?Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark 扩展了广泛使用的MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark 依然比MapReduce 更加高效。2)spark软件栈Spark Core:Spark ...原创 2018-04-17 22:05:15 · 658 阅读 · 0 评论 -
Spark分布式集群搭建(三)安装job history server +intellj idea设置
SPARK_HOME/conf 下:spark-defaults.conf 增加如下内容spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress truespark-env.sh 增加如下内容export SPARK_HISTORY_OPTS=”-D...原创 2018-04-29 22:21:28 · 283 阅读 · 0 评论 -
Spark分布式集群搭建(二):Hive安装(hive+元数据库mysql+intellj idea 集成开发环境 +linux)
本篇内容分为三部分:元数据库mysql安装+hive安装+intellj idea开发使用hive)1)元数据库mysql安装:Step1: 采用apt-get安装mysql Step2: 启动mysql服务 Step3: 进入mysql命令行 Step4: 创建一个database name为hive的数据库用于hive数据文件的存储 Step5: 给当前用户授权 命令如下:sudo apt-g...原创 2018-04-29 19:26:01 · 226 阅读 · 0 评论 -
hadoop fs -mkdir testdata错误 提示No such file or directory
解决方法: hadoop fs -mkdir -p testdata转载 2018-04-29 18:08:18 · 419 阅读 · 0 评论 -
Spark——application、job、stage、task之间的关系
Application:通俗讲,用户每次提交的所有的代码为一个application。Job:一个application可以分为多个job。如何划分job?通俗讲,出发一个final RDD的实际计算为一个jobStage:一个job可以分为多个stage。根据一个job中的RDD的依赖关系进行划分Task:task是最小的基本的计算单位。一般是一个块为一个task,大约是128M...原创 2018-05-04 11:33:42 · 1901 阅读 · 0 评论 -
Spark分布式集群搭建(一)Spark虚拟机集群搭建:Hadoop+Spark伪分布式集群(虚拟机)+IntellJIdea 的环境搭建
环境搭建顺序:1)安装hadoop 2)在hadoop上安装Spark集群 3)IntellJIdea连接Spark集群写在前面:凡是涉及到的linux系统操作,建议以root用户权限进行工作准备工作共有两项:虚拟机配置+SSH服务安装准备工作1:虚拟机配置1.1 安装 VMware Workstation 12 player(虚拟机软件)1.2 在 VMware Workstation...原创 2018-04-21 18:01:59 · 676 阅读 · 0 评论 -
vi 新建文件保存文件时遇到的问题:E212: Can't open file for writing
用vi 新建一个文件,hello.c 或者hello ,然后 :wq 进行保存退出,退出不了,一直出现这个提示 意思是不能保存。原因是权限不够,普通用户用vi 进行不了保存,需要使用超级用户才可以命令:sudo su 转换成超级用户 vi hello 打开文件 :wq 即可保存退出...转载 2018-04-24 09:48:39 · 8066 阅读 · 0 评论 -
解决E: Encountered a section with no Package: header错误
解决E: Encountered a section with no Package: header错误 我的ubuntu机器上出现下面这个错误。 Reading package lists... Error! E: Encountered a section with no Package: header E: Problem with MergeList /var/l...转载 2018-04-24 09:28:22 · 664 阅读 · 0 评论 -
Spark—弹性分布式数据集RDD
1)RDD的起源Hadoop的数据存储模式为:从物理存储上加载数据、操作数据、然后写入物理存储设备。缺点1:运行迭代式算法很慢、无法进行交互式的数据挖掘解决方法:数据存储在内存中缺点2:实现数据集的容错性(数据恢复)代价高(庞大的数据集网络传输)解决方法:高度受限的共享内存(思想如下)2)RDD定义RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能够...原创 2018-04-18 13:57:12 · 509 阅读 · 0 评论 -
Spark—Spark编程的核心概念
通过一个驱动器程序创建一个SparkContext 和一系列RDD,然后进行并行操作。 从上层来看,每个Spark 应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作。驱动器程序包含应用的main 函数,并且定义了集群上的分布式数据集,还对这些分布式数据集应用了相关操作。 驱动器程序通过一个SparkContext 对象来访问Spark。这个对象代表对计算...原创 2018-04-18 08:50:19 · 278 阅读 · 0 评论 -
Table of blog contents
本博客旨在分享大数据领域的两部分部分知识:理论与工具。特别地,本博客重点关注轨迹挖掘的理论与应用。(需要说明的是,本人在博客分享的过程中,参考了很多论文、书籍、资料等等。为了方便更新博客,在此将相关参考文献一并给出)1)理论知识: 数据挖掘系列 机器学习系列 深度学习系列2)基础工具...原创 2018-05-31 09:11:42 · 375 阅读 · 0 评论