hadoop/spark
文章平均质量分 75
Gavin1994
没事的时候写写字
展开
-
spark系列博客-(1)初识spark
说明:本文是我从spark官方文档上翻译总结+个人理解的,如有不恰当和理解偏差的地方,请大家指出,一起交流学习!翻译来源 http://spark.apache.org/docs/latest/programming-guide.html1.每个spark应用均包含一个drive program作为当前应用的入口,每个spark应用的核心抽象就是RDD(resilient dist原创 2015-05-12 11:52:22 · 566 阅读 · 0 评论 -
spark系列博客-(2)spark基础(重要)
1.核心概念(非常重要)RDD:弹性的分布式数据集,是spark的设计核心,是一个高层的抽象Operation:作用于RDD的各种操作,spark中的操作分为transformations和actionsJob:作业,一个job含有多个RDD和作用于RDD上的多种operationStage:一个job分为多个阶段Partition:数据分区,一个RDD中的数据可分为多个不同的原创 2015-05-12 14:16:57 · 517 阅读 · 0 评论 -
centos下搭建单机和伪分布式hadoop环境-(4)搭建过程中的问题汇总
下面我把在搭建hadoop环境的过程中遇到的问题和大家分享下,可能大家在实际的搭建过程中也会遇到1.在hadoop的sbin目录下执行start-all.sh命令报错,终端显示:该命令找不到解决办法:终端输入 ./start-all.sh来启动hadoop(由于.sh文件是脚本文件,故需要在前面加./)2.在hadoop的sbin目录下执行 ./start-all.sh命令也报原创 2015-05-07 17:12:45 · 627 阅读 · 0 评论 -
centos下搭建单机和伪分布式hadoop环境-(1)写在前面
由于公司需求,所以最近一个月都在自学hadoop和spark的相关知识,因此,学习的第一步就是搭建开发环境,这里先详细介绍下hadoop开发环境的搭建。写在前面:由于本人是hadoop和spark的初学者,博文中写的不恰当或不正确的地方,望各位读者多多提意见,再次谢谢大家!(ps:csdn的上传图片较慢,偶尔会上传失败,因此,搭建hadoop和spark环境相关的博客就不黏贴图片了原创 2015-05-07 11:49:51 · 171 阅读 · 0 评论 -
centos下搭建单机和伪分布式hadoop环境-(3)配置hadoop的伪分布式模式
hadoop的伪分布式模式的配置主要是配置几个xml文件:说明:在正式开始配置xml文件之前,需要创建一些目录,方法如下:cd /usr/local/hadoop/hadoop-2.6.0mkdir tmpmkdir hdfsmkdir hdfs/namemkdir hdfs/data在终端执行上述命令后,进行hadoop相关文件的配置,配置的详细步骤如下:(1)配置cor原创 2015-05-07 16:11:35 · 607 阅读 · 0 评论 -
centos下搭建单机和伪分布式hadoop环境-(2)下载安装所需软件+测试hadoop的单机模式
说明:linux终端下的操作均在root权限下步骤一:下载安装hadoop开发环境所需软件1.下载安装vmware player下载地址:https://my.vmware.com/web/vmware/free#desktop_end_user_computing/vmware_player/7_0安装:纯傻瓜式安装,一路next就好。说明:这里也可安装vmw原创 2015-05-07 11:55:28 · 133 阅读 · 0 评论