- 博客(10)
- 收藏
- 关注
原创 spark之RDD(四)
7.Spark一切都以RDD为基础RDD resilient distributed dataset 弹性分布式数据集--a list of partitions 分区列表--a function for computing each split 计算每个切片的函数--a list of dependencies on other rdds 对其他RDD的依赖列
2015-11-21 11:39:54 265
原创 Spark环境搭建(三)
6.Spark环境搭建6.1.Spark的运行模式localstandalonemesosyarn6.2.Spark的集群搭建1.安装JDK(建议JDK7以上)2.安装Scala(建议2.10.4)3.安装Hadoop2.x(至少HDFS)Configuration hadoop-env.sh ex
2015-11-21 11:36:08 557
原创 Spark1.x编译(二)
5.Spark1.x编译5.1.Spark1.x编译方式:MavenSBT打包编译make-distribution.sh5.2.Maven编译1.安装JDK2.安装Maven3.0.4或以上3.安装Scala4.下载Spark源码包 1.上传 2.解压spark源码包 3. 设置Maven的内存使用 export MAVEN_OPTS="
2015-11-21 11:34:02 309
原创 spark简介(一)
1. spark简介Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。2. spark框架
2015-11-21 11:29:09 332
原创 分布式文件系统
常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。Google学术论文,这是众多分布式文件系统的起源==================================Google File System
2015-10-10 21:30:51 318
原创 hadoop之MAPREDUCE
4. MAPREDUCE入门Mapreduce是一个分布式的运算编程框架,核心功能是将用户编写的核心逻辑代码分布式地运行在一个集群的很多服务器上;学习要求:掌握MR程序编程规范; 掌握MR程序运行机制 掌握MR常见需求解决方式4.1 为什么要MAPREDUCE(1)海量数据在单机上处理因为硬件资源限制,无法胜任,因为需要采用分布式集群的方式来处理。(2)
2015-10-10 21:26:41 314
原创 hadoop远程调试
JPDA 简介Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构,使您能够在各种环境中轻松调试 Java 应用程序。JPDA 由两个接口(分别是 JVM Tool Interface 和 JDI)、一个协议(Java Debug Wire Protocol)和两个用于合并它们的软件组件(后端和前端)组成。
2015-10-10 21:24:30 341
原创 hadoop之HDFS
2. HDFS总的设计思想:设计目标:提高分布式并发处理数据的效率(提高并发度和移动运算到数据)分而治之:将大文件、大批量文件,分布式存放在大量独立的服务器上,以便于采取分而治之的方式对海量数据进行运算分析;重点概念:文件切块,副本存放,元数据,位置查询,数据读写流2.1 hdfs的shell操作hadoop fs -操作命令 -参数-ls
2015-10-10 21:16:41 277
原创 64位linux下编译hadoop2.X
1.安装JDK 1.6+(验证:java -version) 1上传2解压jdk #创建文件夹mkdir /usr/java#解压tar -zxvf jdk-7u55-linux-i586.tar.gz -C /usr/java/ 3将java添加到环境变量中vim /etc/profile#在文件最后添加
2015-10-09 21:08:34 278
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人