- 博客(24)
- 资源 (3)
- 收藏
- 关注
转载 SparkSQL(下)--Spark实战应用
1、运行环境说明1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS 64位,单核l 虚拟机运行环境:Ø JDK:1.7.0_55 64位Ø Hadoop:2.2.0(需要编译为64位)Ø Scala:2.10.4Ø ...
2018-02-08 16:33:00 485
转载 SparkSQL(中)--深入了解SparkSQL运行计划及调优
1.1 运行环境说明1.1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS6.5 64位,单核l 虚拟机运行环境:Ø JDK:1.7.0_55 64位Ø Hadoop:2.2.0(需要编译为64位)Ø Scala:2...
2018-02-08 16:32:06 351
转载 SparkSQL(上)--SparkSQL简介
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,大量的S...
2018-02-08 16:30:25 311
转载 Hive(下)--Hive实战
1、Hive操作演示1.1 内部表1.1.1 创建表并加载数据第一步 启动HDFS、YARN和Hive,启动完毕后创建Hive数据库hive>create database hive;hive>show databases;hive>use hive;第二步 创建内部表由于Hive使用了类似SQL的语法,所以创建内部表的语句相对SQL只增加了行和字段分隔符。hive>...
2018-02-08 16:27:37 647
转载 Hive(上)--Hive介绍及部署
1、Hive介绍1.1 Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点:l 优点:1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线;2.使用JDBC 接口/...
2018-02-08 16:26:52 354 1
转载 Spark机器学习库(MLlib)官方指南手册中文版
Spark机器学习库(MLlib)指南 MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具: 1.机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。 2.特征工程:特征提取、特征转换、特征选择以及降维。 3.管道:构造、评估和调整的管道的工具。 4.存储:保存和加载算法、模型及...
2018-02-08 12:27:46 289
转载 HBase详细概述
本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。不过在此之前,你可以先了解 Hadoop生态系统 ,若想运行HBase,则需要先搭建好Hadoop集群环境,可以参考此文搭建5个节点的hadoop集群环境(CDH5) 。好了,让我们来学习HBase
2018-02-06 15:22:27 623
转载 Spark RDD API 参考示例(四)
本文参考Zhen He42、map原型 def map[U: ClassTag](f: T => U): RDD[U]含义 map 对RDD中的每一个item 应用一个函数,并且返回一个新的RDD示例val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)
2018-02-05 13:25:47 275
转载 Spark RDD API 参考示例(六)
本文参考Zhen He69、take原型 def take(num: Int): Array[T]含义 take 提取RDD中元素的前几个,这几个是没有排序的,不需要排序,但是这个底部代码实现起来非常困难,因为他们分布在不同的分区示例val a = sc.parallelize(1 to 10,2)a.take(2)res1: Array[Int]
2018-02-05 13:24:37 191
转载 Spark RDD API 参考示例(五)
本文参考Zhen He57、sample原型 def sample(withReplacement: Boolean, fraction: Double, seed: Int): RDD[T]含义 sample 随机挑选RDD中的一部分产生新的RDD,withReplacement表示是否允许重复挑选,fraction表示挑选比例,seed表示随机初始化种子
2018-02-05 13:23:48 226
转载 Spark RDD API 参考示例(三)
本文参考Zhen He28、getCheckpointFile原型 def getCheckpointFile: Option[String]含义 getCheckpointFile 返回RDD的checkpoint 文件的路径,主要用于对大型计算中恢复到指定的节点示例//设置CheckPoint的路径,前提是路径一定要存在sc.setCheckpoi
2018-02-05 13:18:59 347
转载 Spark RDD API 参考示例(二)
16、dependencies原型 final def dependencies: Seq[Dependency[_]]含义 dependencies 返回RDD的依赖,简单来说,就是这个RDD是怎么一步步生成的。通过这种方式可以很快的重新构建这个RDD示例val b = sc.parallelize(List(1,2,3,4,5,6,7,8,2,4,2,1,1
2018-02-05 13:17:47 233
转载 Spark RDD API 参考示例(一)
本文参考Zhen He1、aggregate原型 def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U含义 aggregate是一个聚合函数,一个RDD分区后,产生多个Partition,在aggregate中需要指定两个处理函数,第一个函数用于对每个
2018-02-05 13:16:11 378
原创 Spark笔记:复杂RDD的API的理解(下)
本篇接着谈谈那些稍微复杂的API。1) flatMapValues:针对Pair RDD中的每个值应用一个返回迭代器的函数,然后对返回的每个元素都生成一个对应原键的键值对记录 这个方法我最开始接触时候,总是感觉很诧异,不是太理解,现在回想起来主要原因是我接触的第一个flatMapValues的例子是这样的,代码如下:123
2018-02-05 13:10:51 279
原创 Spark笔记:复杂RDD的API的理解(上)
本篇接着讲解RDD的API,讲解那些不是很容易理解的API,同时本篇文章还将展示如何将外部的函数引入到RDD的API里使用,最后通过对RDD的API深入学习,我们还讲讲一些和RDD开发相关的scala语法。1) aggregate(zeroValue)(seqOp,combOp) 该函数的功能和reduce函数一样,也是对数据进行聚合操作,不过aggregate可以返回和原R
2018-02-05 13:09:44 244
原创 Spark笔记:RDD基本操作(下)
上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。 Spark是一个计算框架,是对mapreduce计算框架的改进,mapreduce计算框架是基于键值对也就是map的形式,之所以使用键值对是人们发现世界上大部分计算都可以使用map这样的简单计算模型进行计算。但是Spark里
2018-02-05 13:03:22 243
原创 Spark笔记:RDD基本操作(上)
本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言编写的。 Spark里的计算都是操作RDD进行,那么学习RDD的第一个问题就是如何构建RD
2018-02-05 13:02:12 270
原创 spark开发环境搭建(基于idea 和maven)
使用idea构建maven 管理的spark项目 ,默认已经装好了idea 和Scala那么使用idea 新建maven 管理的spark 项目有以下几步:scala插件的安装全局JDK和Library的设置配置全局的Scala SDK新建maven项目属于你的”Hello World!”导入spark依赖编写sprak代码打包在spark上运行1.scala插件的
2018-02-03 16:40:47 373
转载 Python 资源大全
这又是一个 Awesome XXX 系列的资源整理,由 vinta 发起和维护。内容包括:Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。伯乐在线已在 GitHub 上发起「Python 资源大全中文版」的整理。欢迎扩散、欢迎加入。GitHub - jobbole/awesome-python-cn: Pyth
2018-02-03 12:59:02 395
原创 Idea配置sbt(window环境)
近开发spark项目使用到scala语言,这里介绍如何在idea上使用sbt来编译项目。开发环境:windows1. 下载sbthttp://www.scala-sbt.org/download.html我使用的是zip包,下载后解压到d:\tool\目录2.添加配置2.1 打开D:\tool\sbt\conf\sbtconfig.txt,在最后添加下面几行配置,注
2018-02-03 10:00:54 2741
转载 Spark在Windows下的环境搭建
由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。 一.JDK的安装
2018-02-02 16:57:56 1034
原创 hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(3)
一、文件准备 scala-2.12.1.tgz 下载地址: http://www.scala-lang.org/download/2.12.1.html 二、工具准备 2.1 Xshell 2.2 Xftp 三、操作步骤 3.1 通过Xftp将下载下来的Scala上传到指定虚拟机上传到
2018-02-02 15:44:04 532
原创 hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(2)安装hadoop
一、依赖安装 安装JDK 二、文件准备 hadoop-2.7.3.tar.gz 2.2 下载地址 http://hadoop.apache.org/releases.html 三、工具准备 3.1 Xshell 3.2 Xftp 四、部署图
2018-02-02 15:43:07 293
原创 hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(1)安装jdk
一、文件准备 下载jdk-8u131-linux-x64.tar.gz 二、工具准备 2.1 Xshell 2.2 Xftp三、操作步骤 3.1 解压文件: $ tar zxvf jdk-8u131-linux-x64.tar.gz 解压后文件目录移动到/opt/modules
2018-02-02 15:39:07 287
SSO单点登录
2016-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人