CODE男孩的博客

你只是看起来很努力,,,,,

SparkSQL(下)--Spark实战应用

1、运行环境说明1.1 硬软件环境l  主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l  虚拟软件:VMware® Workstation 9.0.0 build-812388l  虚拟机操作系统:CentOS 64位,单核l  虚拟机运行环境:Ø  JDK:1.7....

2018-02-08 16:33:00

阅读数 295

评论数 0

SparkSQL(中)--深入了解SparkSQL运行计划及调优

1.1  运行环境说明1.1.1 硬软件环境l  主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l  虚拟软件:VMware® Workstation 9.0.0 build-812388l  虚拟机操作系统:CentOS6.5 64位,单核l  虚拟机运行环境:Ø  ...

2018-02-08 16:32:06

阅读数 145

评论数 0

SparkSQL(上)--SparkSQL简介

1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的...

2018-02-08 16:30:25

阅读数 157

评论数 0

Hive(下)--Hive实战

1、Hive操作演示1.1 内部表1.1.1 创建表并加载数据第一步   启动HDFS、YARN和Hive,启动完毕后创建Hive数据库hive>create database hive;hive>show databases;hive&...

2018-02-08 16:27:37

阅读数 480

评论数 0

Hive(上)--Hive介绍及部署

1、Hive介绍1.1 Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点:l  优点:1.Hive 使用类SQL 查询语法...

2018-02-08 16:26:52

阅读数 173

评论数 1

Spark机器学习库(MLlib)官方指南手册中文版

Spark机器学习库(MLlib)指南       MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具:       1.机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。       2.特征工程:特征提取、特征转换、特征选择以及降维...

2018-02-08 12:27:46

阅读数 152

评论数 0

HBase详细概述

本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。 不过在此之前,你可以先了解 Hadoop生态系统 ,若想运行HBase,则需要先搭建好Hadoop集群环...

2018-02-06 15:22:27

阅读数 470

评论数 0

Spark RDD API 参考示例(四)

本文参考Zhen He 42、map 原型  def map[U: ClassTag](f: T => U): RDD[U] 含义  map 对RDD中的每一个item 应用一个函数,并且返回一个新的RDD 示例 val a = sc.parallelize(L...

2018-02-05 13:25:47

阅读数 118

评论数 0

Spark RDD API 参考示例(六)

本文参考Zhen He 69、take 原型  def take(num: Int): Array[T] 含义  take 提取RDD中元素的前几个,这几个是没有排序的,不需要排序,但是这个底部代码实现起来非常困难,因为他们分布在不同的分区 示例 val a = sc...

2018-02-05 13:24:37

阅读数 114

评论数 0

Spark RDD API 参考示例(五)

本文参考Zhen He 57、sample 原型  def sample(withReplacement: Boolean, fraction: Double, seed: Int): RDD[T] 含义  sample 随机挑选RDD中的一部分产生新的RDD,withRep...

2018-02-05 13:23:48

阅读数 103

评论数 0

Spark RDD API 参考示例(三)

本文参考Zhen He 28、getCheckpointFile 原型  def getCheckpointFile: Option[String] 含义  getCheckpointFile 返回RDD的checkpoint 文件的路径,主要用于对大型计算中恢复到指定的节点...

2018-02-05 13:18:59

阅读数 119

评论数 0

Spark RDD API 参考示例(二)

16、dependencies 原型  final def dependencies: Seq[Dependency[_]] 含义  dependencies 返回RDD的依赖,简单来说,就是这个RDD是怎么一步步生成的。通过这种方式可以很快的重新构建这个RDD 示例 va...

2018-02-05 13:17:47

阅读数 93

评论数 0

Spark RDD API 参考示例(一)

本文参考Zhen He 1、aggregate 原型  def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U 含义  aggregate是一个聚合函...

2018-02-05 13:16:11

阅读数 108

评论数 0

Spark笔记:复杂RDD的API的理解(下)

本篇接着谈谈那些稍微复杂的API。 1)   flatMapValues:针对Pair RDD中的每个值应用一个返回迭代器的函数,然后对返回的每个元素都生成一个对应原键的键值对记录   这个方法我最开始接触时候,总是感觉很诧异,不是太理解,现在回想起来主要原因是我接触的第一个flatM...

2018-02-05 13:10:51

阅读数 159

评论数 0

Spark笔记:复杂RDD的API的理解(上)

本篇接着讲解RDD的API,讲解那些不是很容易理解的API,同时本篇文章还将展示如何将外部的函数引入到RDD的API里使用,最后通过对RDD的API深入学习,我们还讲讲一些和RDD开发相关的scala语法。 1)  aggregate(zeroValue)(seqOp,combOp) ...

2018-02-05 13:09:44

阅读数 134

评论数 0

Spark笔记:RDD基本操作(下)

上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。   Spark是一个计算框架,是对mapreduce计算框架的改进,mapreduce计算框架是基于键值对也就是map的形式,...

2018-02-05 13:03:22

阅读数 94

评论数 0

Spark笔记:RDD基本操作(上)

本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语...

2018-02-05 13:02:12

阅读数 118

评论数 0

spark开发环境搭建(基于idea 和maven)

使用idea构建maven 管理的spark项目 ,默认已经装好了idea 和Scala 那么使用idea 新建maven 管理的spark 项目有以下几步: scala插件的安装全局JDK和Library的设置配置全局的Scala SDK新建maven项目属于你的”Hello W...

2018-02-03 16:40:47

阅读数 203

评论数 0

Python 资源大全

这又是一个 Awesome XXX 系列的资源整理,由 vinta 发起和维护。内容包括:Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。 伯乐在线已在 GitHub 上发起「Python 资源大全中文版」的整理。欢...

2018-02-03 12:59:02

阅读数 168

评论数 0

Idea配置sbt(window环境)

近开发spark项目使用到scala语言,这里介绍如何在idea上使用sbt来编译项目。 开发环境:windows 1. 下载sbt http://www.scala-sbt.org/download.html 我使用的是zip包,下载后解压到d:\tool\目录 2.添加配置 ...

2018-02-03 10:00:54

阅读数 1145

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭