spark
下雨天uu
lot of time
展开
-
Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装
1、编译SparkSpark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1、时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2、maven下载大文件是多线程进行,而SB转载 2015-09-09 14:35:00 · 730 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(下)
1、MLlib实例1.1 聚类实例1.1.1 算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常见的还有层次法(CURE、CHAMELEON转载 2015-09-16 09:35:22 · 1052 阅读 · 0 评论 -
Spark入门实战系列--9.Spark图计算GraphX介绍及实例
1、GraphX介绍1.1 GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理。Sp转载 2015-09-16 09:38:02 · 1768 阅读 · 0 评论 -
Spark入门实战系列--2.Spark编译与部署(中)--Hadoop编译安装
实验相关的测试数据和安装包放在百度盘提提供下载,地址为http://pan.baidu.com/s/1pJyyB6j。原创地址为:http://www.cnblogs.com/shishanyuan1、编译Hadooop1.1 搭建环境1.1.1 安装并设置maven1. 下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载转载 2015-09-09 14:32:42 · 594 阅读 · 0 评论 -
Spark入门实战系列--1.Spark及其生态圈简介
1、简介1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、S转载 2015-09-09 14:17:34 · 913 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is转载 2015-09-09 15:12:14 · 1761 阅读 · 0 评论 -
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算转载 2015-09-09 15:01:08 · 1154 阅读 · 0 评论 -
Spark入门实战系列--5.Hive(上)--Hive介绍及部署
1、Hive介绍1.1 Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点:l 优点:1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线;2.转载 2015-09-09 14:45:17 · 1080 阅读 · 0 评论 -
Spark编译与部署(上)--基础环境搭建
实验相关的测试数据和安装包放在百度盘提提供下载,地址为http://pan.baidu.com/s/1pJyyB6j。原创地址为:http://www.cnblogs.com/shishanyuan1、运行环境说明1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstatio转载 2015-09-09 14:23:29 · 1259 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
1.1 运行环境说明1.1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS6.5 64位,单核l 虚拟机运行环境:Ø JDK:1.7.0_55 64位Ø Hadoop:2.2.0(需要编译为转载 2015-09-09 14:51:33 · 1176 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,转载 2015-09-09 14:48:04 · 1009 阅读 · 0 评论 -
Spark入门实战系列--7.Spark Streaming(下)--实时流计算Spark Streaming实战
1、实例演示1.1 流数据模拟器1.1.1 流数据说明在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序。1.1.2 模拟器代码import java.io.{PrintWriter}转载 2015-09-09 15:06:00 · 1162 阅读 · 1 评论 -
Spark入门实战系列--4.Spark运行架构
1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:Spark中的Driver即运行上述Application的main()函数并且创建SparkCon转载 2015-09-09 14:42:54 · 812 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(下)--Spark实战应用
1、运行环境说明1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS 64位,单核l 虚拟机运行环境:Ø JDK:1.7.0_55 64位Ø Hadoop:2.2.0(需要编译为64位)Ø转载 2015-09-09 14:56:04 · 475 阅读 · 0 评论 -
Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战
1、Spark编程模型1.1 术语定义l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;l驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program;l执行单元(Execu转载 2015-09-09 14:37:00 · 968 阅读 · 0 评论 -
Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
1、Tachyon介绍1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时地处理,或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点。近年来,内存的吞吐量成指数倍增长,而磁盘的吞吐量增长缓慢,那么将原有计算框架中文件落地磁盘替换为文件落地内存,也是提高效率的优化点。目前已经使用基于内存计算的分布式计算框架有:Spark、I转载 2015-09-16 09:40:34 · 847 阅读 · 0 评论