Spark
Spark
绣花针
心有猛虎,细嗅蔷薇
展开
-
centos6.5下Hadoop集群环境配置
一:配置主节点Master1:下载并解压安装包首先将压缩包移至mark用户的主目录下,然后执行下述命令对其进行解压mv hadoop-2.5.2.tar.gz /home/marktar -xvf hadoop-2.5.2.tar.gzcd hadoop-2.5.2解压后在当前目录下生成hadoop-2.5.2文件夹2:配置hadoop-env.sh打开hadoop-env.sh,配置JDK路径v...原创 2018-03-30 15:55:24 · 996 阅读 · 0 评论 -
Spark之各类启动命令汇总
一:启动Hadoop集群cd ~/hadoop-2.5.2sbin/start-all.sh二:Spark集群启动cd spark-1.4.0-bin-hadoop2.4sbin/start-master.shsbin/start-slaves.sh三:IDEA启动cd idea1814bin/idea.sh原创 2018-04-12 23:13:00 · 2854 阅读 · 0 评论 -
Spark之集群模式运行Spark应用程序
在上篇文章中Spark应用程序SimpleApp采用的是本地运行模式,该模式通常用于对应用程序的前期调试,以本地运行模式运行正确后,可以进一步尝试以集群模式运行应用程序。1:设置Spark应用程序启动运行类首先单击“File”->"Project Structure",在打开的窗口中单击“Artifacts”命令,在右侧显示窗口中单击“+”,并在下拉菜单中选择“JAR”->"From ...原创 2018-04-12 23:06:10 · 870 阅读 · 0 评论 -
Spark之GraphX的特点
1.基于内存实现了数据的复用与快速读取 具有较多迭代次数是图计算算法的一个重要特点。在海量数据背景下,如何保证图计算算法的执行效率是所有图计算模型面对的一个难题。基于MapReduce的图计算模型在进行迭代计算过程中,中间数据的操作都是基于磁盘展开的。这使得数据的转换和复制开销非常大,其中包括序列化开销等。除此之外,许多与图结构信息相关的数据无法进行重用,这使得系统不得不反复读取一些相同的数...原创 2018-04-16 19:44:21 · 1235 阅读 · 0 评论 -
Spark调度管理
速度通常是衡量大数据处理系统性能的一个重要指标。相对于传统的大数据处理框架MapReduce,Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近100倍。Spark在运行速度方面的突出表现一方面得益于基于内存的计算,另一方面得益于其优秀的调度管理策略。 在Spark的调度管理系统中,从底层物理资源调度到上层应用,涉及众多概念和相关模块,其中作业调度管理是核心。...原创 2018-04-03 22:33:01 · 389 阅读 · 0 评论 -
Spark之IntelliJ IDEA搭建与spark应用程序创建与运行(本地运行)
一:Linux上IntelliJ IDEA安装1:下载IntelliJ IDEA.JetBrains共提供了两个版本:社区版(免费开源)和终极版(专非有免费),下载后将压缩文件移至用户主目录下,在此事例中即master节点的/home/mark/执行下述命令对ideaIC-2018.1.tar.gz进行压缩,得到文件夹idea-IC-201814,为方便操作将其重命名为idea1814$ tar ...原创 2018-04-10 17:51:36 · 14476 阅读 · 0 评论 -
Spark-RDD编程之持久化操作
默认情况下,对于每一个经过一系列转换操作后得到的RDD,当在其上多次提交执行操作时,将RDD将会被重复计算。scala>val rdd=rdd1.map(func1).map(func2).map(func3).collectscala>rdd1.count在执行第一条语句时,rdd已经通过rdd1和三个map操作创建完成;当执行第二条语句时,rdd会被重复创建,即再次执行三个map操...原创 2018-04-03 09:26:04 · 384 阅读 · 0 评论 -
Spark-RDD编程之常见转换操作
转换操作能够从已有的RDD得到新的RDD一:一元转换操作1:map首先创建rdd1,其中含有整数1~9;对rdd1中的每个元素执行乘2操作,得到新的元素rdd2scala>val rdd1=sc.parallelize(1 to 9 ,3)scala>val rdd2=sc.rdd1.map(x >= x*2)scala>rdd1.collectscala>rdd2....原创 2018-04-02 20:28:01 · 818 阅读 · 0 评论 -
Spark之GraphX基本原理
GraphX是Spark框架上的图计算组件,通过对Spark中RDD进行继承与扩展,引入了弹性分布式属性图,并针对该图提供了丰富的API。GraphX基于Spark中RDD、DAG、高容错性等概念和特性,实现了图计算的高效性与健壮性。Graphx是一种基于内存的分布式的图计算库与图计算框架,用户不仅可以直接使用Graphx提供的经典计算算法库,还可以针对不同的业务需求开发相应的Graphx应用程序...原创 2018-04-14 16:24:50 · 1078 阅读 · 0 评论 -
Spark-RDD编程之常见执行操作
执行操作(action)是向应用程序返回值或向存储系统导出数据的操作,常见的有first,count,collect,take等。scala>val rdd=sc.makeRDD(1 to 10)#返回RDD中的第一个元素scala>rdd.first#统计RDD中元素的个数scala>rdd.count#对RDD中元素累加求和scala>rdd.reduce(_+_)#对...原创 2018-04-02 10:48:49 · 498 阅读 · 1 评论 -
Spark-RDD编程之RDD特性
Apache将RDD定义为弹性分布式数据集,它是Spark应用程序中数据的基本组织形式。弹性意味着RDD能够自动地进行内存和磁盘数据存储的切换,并且具有非常高的容错性;分布式说明RDD是一个存储在多个节点上的海量数据集合。RDD是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合。RDD具有自动容错、位置感知调度和可伸缩性等数据流模型的特点。一:分区RDD中的数据可能是TB、PB级别的,完...原创 2018-04-02 10:10:05 · 277 阅读 · 0 评论 -
故事性简单易懂Map/Reduce原理
1.什么是Map/Reduce,看下面的各种解释:(1)MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce,缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程。(2)Mapreduce是一种编程模型,是一种编程方法,抽象理论。(3)下面是一个关于一个程序员是...转载 2018-04-09 09:44:14 · 185 阅读 · 0 评论 -
Spark之本地文件上传至HDFS
例子:上传本地文件file.txt至HDFS在HDFS上创建文件夹hadoop fs -mkdir /work进入master:50070Utilities->Browse the file system,可以看到新建的文件夹:上传文件(本地Downloads文件夹中的file.txt)至HDFS(work文件夹中)hadoop fs -put /home/mark/Downloads/f...原创 2018-04-09 09:37:45 · 6604 阅读 · 1 评论 -
centos6.5集群环境下Spark安装
1:下载Spark对应版本,然后移动至master节点mark用户目录主目录下,并对其解压mv spark-1.4.0-bin-hadoop2.4.tgz /home/marktar –zvxf spark-1.4.0-bin-hadoop2.4.tgz2:配置Spark-env.sh进入spark-1.4.0-bin-hadoop2.4/conf,复制其中的spark-env.sh.templa...原创 2018-03-31 18:28:17 · 980 阅读 · 0 评论 -
Centos6.5下Scala安装
1:下载Scala安装包并移至mark用户的主目录下解压mv scala-2.10.4.tgz /home/marktar -zvxf scala-2.10.4.tgz2:配置系统文件打开.bash_profile文件中配置以下环境变量vim /home/mark/.bash_profileexport SCALA_HOME=/home/mark/scala-2.10.4export ...原创 2018-03-30 17:53:12 · 437 阅读 · 0 评论 -
CentOS 6.5配置SSH免密码登录
预先配置:vim /etc/hosts 修改master、slave1、slave2的ip地址(具体对应的ip地址可以使用命令ifconfig,将对应的ip地址附加到hosts文件中即可)注意:修改后,要确保master用户下可以ping通master、slave1、slave2。相互可以互相ping通,这样才能向对方传送文件。1、修改ssh的配置文件(两台机器,root用户) # vim...原创 2018-03-27 16:27:48 · 1524 阅读 · 0 评论 -
Vmware环境下centos6.5网络配置---解决联网失败,ping失败等问题
centos6.5安装完成后,发现不能联网,ping不到任何数据1:root角色下运行 service network restart2:注意红色部分,如果能看到少于四个绿色的ok,则还需要配置修改 /etc/sysconfig/network-scripts/ifcfg-eth0文件root角色下运行 vim /etc/sysconfig/network-scripts/ifcfg...原创 2018-03-22 10:22:33 · 1165 阅读 · 0 评论 -
解决Centos6.5中ssh登录时Warning:Permanently added (RSA) to the list of known hosts的警告
当主机使用ssh免密码登录时,弹出Warning:Permanently added (RSA) to the list of known hosts的警告,看着很碍眼。通过以下方法进行解决:1:vim /etc/ssh/ssh_config(master和slave1都需要设置)找到#StrictHostKeyChecking ask去掉注释,并把ask改为no即可...原创 2018-03-27 16:46:55 · 89608 阅读 · 4 评论 -
Spark之GraphX案例-PageRank算法与分析
1.算法原理PageRank算法即网页排名算法,是Google创始人拉里· 佩奇和谢尔盖· 布林与1997年构建早期的搜索系统原型时提出的链接分析算法。自从Google在商业上获得巨大成功后,该算法引起了研究者们的广泛关注,目前很多重要的链接算法都是在PageRank算法基础上衍生出来的。PageRank算法是Google用来标识网页等级的重要依据,是Google衡量一个网站的好坏的唯一标准。对网...原创 2018-04-30 17:37:26 · 4666 阅读 · 0 评论