我的spark学习之路(一)

2016.8.10

其实北京一年,我也一直在考虑我回所到底研究什么方向,但都只是停留在想想的层次,最终也没什么结果,回来老师问了我的想法说,学分布式计算吧,读博也可以,找工作也好找,文章也好发,我一想,这感情好啊,既符合我搞开发的兴趣,文章也不难发,毕业了还有两个选择,简直是三全其美啊。虽然老师给了我两个月的时间考虑,但是我基本就决定了,我一定要研究这个方向,于是就有了接下来的话题。

一、背景

1.北京打了一年酱油刚回来、什么都不会。
2.即将面临开题、压力山大。
3.老板告诉我学这个需要高智商,需要学很多东西,需要能坚持下去。

就在这样的背景下,开始了我的受虐之路

二、迷茫

第一天

自认为编程基础还不错的我就被虐的像个计算机小白一样。
以前你服务器接触的是什么类型,Linux?
没有,没接触过。
……
以前你都是用什么写网页的?
javascript。
…….
contOS你了解吗?
昨天在网上刚看到过。
……

那天我被自己并不能听的懂的英语视频毒害了一天。

(下午我终于拿到自己的电脑了,但是为什么是Linux操作系统?我悲剧的发现自己不知道怎么切换到中文输入法。)

第二天

这一天我被老师叫去继续向魏老师学习,我坐在旁边很迷茫的看着投影,不知道魏老师在干什么。后面我就自己上网查资料去了,看了无数的hadoop安装教程,但是最让我纠结的还是谁能告诉我centOS,ubuntu,hadoop,
docker,VM这些东西到底什么关系啊,

这里写图片描述
这是一个在centOS上安装hadoop的步骤,看到它我首先想的是:不是说安装hadoop么,怎么又成为CDH了,CDH又是什么鬼?然后是:安装centOS?centOS不是个操作系统么,怎么都安装vmware了才安装操作系统,没有操作系统vmware是怎么安装的?相比之下后面的几步倒是好理解了。
那天我被这样简单到白痴的问题折磨了一整天。

三、动手

第三天我在网上找了一个教程决定自己装。
http://tashan10.com/yong-dockerda-jian-hadoopwei-fen-bu-shi-ji-qun/
这是一个基于Docker安装hadoop分布式集群的教程,写的很详细,我几乎照着它一路就作下去了。遗憾的是这一天还是没弄好。(吐嘈一下,我觉得后面这两天限制的进度的最大因素是那里的网太慢了)
第四天,花了一上午的时间终于照着教程做完了,我不知道算不算做好了,拿去专门找魏老师认证了一下,当他告诉我应该算好了的时候,我的想法是好像也不难啊,为什么吴老师给我看的教程写的那么复杂。
晚上回到办公室把自己做的成果拿出来看了又看,激动之余发现我的结果好像和教程不太一样,我执行hadoop dfsadmin -report这个命令后虽然没有报错,但显示我的datanode为0 (正确的应该是2)为了这个问题我把原来做好的容器删了又做了一次,结果还是不对,最后查了好多资料发现原因是我没有修改两个slave的slaves文件。

hadoop布署好之后我想是不是该装spark了(因为我告诉老师hadoop之后他问了我一句:”Spark也装好了?”)。

有了hadoop的前车之鉴,找个教程直接开装spark。
先找的是马踏飞燕——奔跑在Docker上的Spark
虽然照着这个教程做完了,不过这个写的有点简单,中间我都是自己估摸的做的,最终也做完了,但打开spark-shell老是报错,一直找不到错误又重新找了个教程——spark1.6分布式集群环境搭建
最终照着这个教程完成了spark的布署

四、我想

回想了自己安装spark、hadoop的过程,虽然不是一帆风顺,但也不算历尽磨难。hadoop花了两天的时间,算上解决后面的小问题(没有datanode)不到三天的时间,而spark花了一天时间就装好了。
在动手做的过程中,前面让我迷茫的问题也迎刃而解了。看来任何事情还是要动手啊。
我想,前两天之所以后迷茫应该是干任何一行都要经历的入门阶段吧(虽然我现在也不算入门),回想自己刚开始学编程不也是那样。那个时候,听到的一些名词都是新的,每一点进步是千难万难。虽然如此,我想我会继续下去并努力取得成功。

五、再迷茫

hadoop、spark都装好了,但是在查资料的过程中,我又看到很多新名词,所以我再次迷茫了。yarn,zookeeper,hbase,hive,standalon这些都是什么鬼?和hadoop有什么关系?我要不要进一步了解?刚才和魏老师交流了,他让我先了解就行了,以后用的时候自然会知道。

时间仓促,保安都上来赶人了,就写到这儿吧。

转载于:https://www.cnblogs.com/xtfge/p/9949079.html

### 回答1: Spark是一种大数据处理的框架,它可以处理大量的数据并进行分析。初学者可以通过学习Spark的基本概念和使用方法,了解Spark的工作原理和应用场景。在学习Spark的过程中,需要掌握Spark的核心组件和API,例如Spark Core、Spark SQL、Spark Streaming等。此外,还需要学习Spark的部署和调优,以及与其他大数据技术的集成。 ### 回答2: Spark是一种基于内存的分布式计算框架,是大数据处理中最流行的技术之一。Spark简单易用,能够快速地处理海量数据,尤其是在机器学习和数据挖掘领域中表现突出。本文将从初识Spark的角度入手,介绍Spark的基本概念和使用。 一、Spark的基本概念 1. RDD RDD全称为Resilient Distributed Datasets,中文意思是弹性分布式数据集,它是Spark的核心数据结构。RDD是一个不可变的分布式的对象集合,可以跨越多个节点进行并行处理。一个RDD可以分为多个分区,每个分区可以在不同的节点上存储。 2. DAG DAG即Directed Acyclic Graph(有向无环图),它是Spark中的一个概念,用来表示作业的依赖关系。Spark将一个作业拆分成一系列具有依赖关系的任务,每个任务之间的依赖形成了DAG。 3. 窄依赖和宽依赖 对于一个RDD,如果一个子RDD的每个分区只依赖于父RDD的一个分区,这种依赖就称为窄依赖。如果一个子RDD的每个分区依赖于父RDD的多个分区,这种依赖就称为宽依赖。宽依赖会影响Spark的性能,应尽量避免。 二、Spark的使用 1. 安装Spark 要使用Spark,首先需要在本地或者集群上安装Spark。下载安装包解压缩即可,然后设置环境变量,即可在命令行中运行Spark。 2. Spark Shell Spark Shell是Spark的交互式命令行界面,类似于Python的交互式控制台,可以快速测试Spark代码。在命令行中输入spark-shell即可进入。 3. Spark应用程序 除了Spark Shell,Spark还支持以应用程序的形式运行。要创建一个Spark应用程序,可以使用Scala、Java、Python等语言进行编写。使用Spark API,读取数据、处理数据、保存数据等操作都可以通过编写代码完成。 总之,Spark是一种优秀的分布式计算框架,能够在海量数据处理中发挥出强大的作用。初学者可以从掌握RDD、DAG、依赖关系等基本概念开始,逐步深入学习Spark的使用。 ### 回答3: Spark是一种快速、分布式数据处理框架,它能够在成千上万个计算节点之间分配数据和计算任务。Spark的优势在于它支持多种语言和数据源,可以在内存中快速存储和处理数据。 在初学Spark时,我们需要对Spark的架构和核心组件有一些了解。首先,Spark的核心组件是Spark Core,它是一个可以用于建立各种应用程序的计算引擎。与此同时,Spark持有丰富的库,包括Spark SQL、Spark Streaming、MLLib和GraphX等,以支持在各种数据类型(文本、图像、视频、地理定位数据等)上运行各种算法。 若想要在Spark中进行任务,有两种编程API可供选择:Spark的核心API和Spark的SQL及DataFrame API。Spark的核心API基于RDDs(弹性分布式数据集),它是不可变的分布式对象集合,Spark使用RDD来处理、缓存和共享数据。此外,Spark的SQL及DataFrame API提供了更高层次的语言,可以处理结构化和半结构化数据。 除了组件和API之外,我们还需要了解Spark的4个运行模式:本地模式、Standalone模式、YARN模式和Mesos模式。本地模式由单个JVM上单个线程(本地模式)或四个线程(local[*]模式)运行。Standalone通常用于小规模集群或开发和测试环境。在YARN或Mesos模式下,Spark将任务提交给集群管理器,并通过管理器分配和管理资源。 总体来说,初学Spark时,我们需要了解Spark的核心组件、编程API和运行模式。熟悉这些概念以及Spark的架构,可以帮助我们更好地理解Spark和构建高效且可扩展的Spark应用程序。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值