2018年02月_CODE男孩

转载 SparkSQL（下）--Spark实战应用

1、运行环境说明1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统：CentOS 64位，单核l 虚拟机运行环境：Ø JDK：1.7.0_55 64位Ø Hadoop：2.2.0（需要编译为64位）Ø Scala：2.10.4Ø ...

2018-02-08 16:33:00 485

转载 SparkSQL（中）--深入了解SparkSQL运行计划及调优

1.1 运行环境说明1.1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统：CentOS6.5 64位，单核l 虚拟机运行环境：Ø JDK：1.7.0_55 64位Ø Hadoop：2.2.0（需要编译为64位）Ø Scala：2...

2018-02-08 16:32:06 351

1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效率，大量的S...

2018-02-08 16:30:25 311

转载 Hive（下）--Hive实战

1、Hive操作演示1.1 内部表1.1.1 创建表并加载数据第一步启动HDFS、YARN和Hive，启动完毕后创建Hive数据库hive>create database hive;hive>show databases;hive>use hive;第二步创建内部表由于Hive使用了类似SQL的语法，所以创建内部表的语句相对SQL只增加了行和字段分隔符。hive&gt...

2018-02-08 16:27:37 647

转载 Hive（上）--Hive介绍及部署

1、Hive介绍1.1 Hive介绍Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL语句作为数据访问接口，Hive有如下优缺点：l 优点：1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容，大大降低了传统数据分析人员学习的曲线；2.使用JDBC 接口/...

2018-02-08 16:26:52 354 1

转载 Spark机器学习库（MLlib）官方指南手册中文版

Spark机器学习库(MLlib)指南 MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具： 1.机器学习算法：常规机器学习算法包括分类、回归、聚类和协同过滤。 2.特征工程：特征提取、特征转换、特征选择以及降维。 3.管道：构造、评估和调整的管道的工具。 4.存储：保存和加载算法、模型及...

2018-02-08 12:27:46 289

转载 HBase详细概述

本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据、HBase数据模型、HBase物理存储、HBase系统架构，HBase调优、HBase Shell访问等。不过在此之前，你可以先了解 Hadoop生态系统，若想运行HBase，则需要先搭建好Hadoop集群环境，可以参考此文搭建5个节点的hadoop集群环境（CDH5）。好了，让我们来学习HBase

2018-02-06 15:22:27 623

转载 Spark RDD API 参考示例（四）

本文参考Zhen He42、map原型 def map[U: ClassTag](f: T => U): RDD[U]含义 map 对RDD中的每一个item 应用一个函数，并且返回一个新的RDD示例val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)

2018-02-05 13:25:47 275

转载 Spark RDD API 参考示例（六）

本文参考Zhen He69、take原型 def take(num: Int): Array[T]含义 take 提取RDD中元素的前几个，这几个是没有排序的，不需要排序，但是这个底部代码实现起来非常困难，因为他们分布在不同的分区示例val a = sc.parallelize(1 to 10,2)a.take(2)res1: Array[Int]

2018-02-05 13:24:37 191

转载 Spark RDD API 参考示例（五）

本文参考Zhen He57、sample原型 def sample(withReplacement: Boolean, fraction: Double, seed: Int): RDD[T]含义 sample 随机挑选RDD中的一部分产生新的RDD，withReplacement表示是否允许重复挑选，fraction表示挑选比例，seed表示随机初始化种子

2018-02-05 13:23:48 226

转载 Spark RDD API 参考示例（三）

本文参考Zhen He28、getCheckpointFile原型 def getCheckpointFile: Option[String]含义 getCheckpointFile 返回RDD的checkpoint 文件的路径，主要用于对大型计算中恢复到指定的节点示例//设置CheckPoint的路径，前提是路径一定要存在sc.setCheckpoi

2018-02-05 13:18:59 347

转载 Spark RDD API 参考示例（二）

16、dependencies原型 final def dependencies: Seq[Dependency[_]]含义 dependencies 返回RDD的依赖，简单来说，就是这个RDD是怎么一步步生成的。通过这种方式可以很快的重新构建这个RDD示例val b = sc.parallelize(List(1,2,3,4,5,6,7,8,2,4,2,1,1

2018-02-05 13:17:47 233

转载 Spark RDD API 参考示例（一）

本文参考Zhen He1、aggregate原型 def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U含义 aggregate是一个聚合函数，一个RDD分区后，产生多个Partition，在aggregate中需要指定两个处理函数，第一个函数用于对每个

2018-02-05 13:16:11 378

原创 Spark笔记：复杂RDD的API的理解（下）

本篇接着谈谈那些稍微复杂的API。1) flatMapValues：针对Pair RDD中的每个值应用一个返回迭代器的函数，然后对返回的每个元素都生成一个对应原键的键值对记录　　这个方法我最开始接触时候，总是感觉很诧异，不是太理解，现在回想起来主要原因是我接触的第一个flatMapValues的例子是这样的，代码如下：123

2018-02-05 13:10:51 279

原创 Spark笔记：复杂RDD的API的理解（上）

本篇接着讲解RDD的API，讲解那些不是很容易理解的API，同时本篇文章还将展示如何将外部的函数引入到RDD的API里使用，最后通过对RDD的API深入学习，我们还讲讲一些和RDD开发相关的scala语法。1) aggregate(zeroValue)(seqOp,combOp)　该函数的功能和reduce函数一样，也是对数据进行聚合操作，不过aggregate可以返回和原R

2018-02-05 13:09:44 244

原创 Spark笔记：RDD基本操作（下）

上一篇里我提到可以把RDD当作一个数组，这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。　　Spark是一个计算框架，是对mapreduce计算框架的改进，mapreduce计算框架是基于键值对也就是map的形式，之所以使用键值对是人们发现世界上大部分计算都可以使用map这样的简单计算模型进行计算。但是Spark里

2018-02-05 13:03:22 243

原创 Spark笔记：RDD基本操作（上）

本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家可以就把RDD当作一个数组，这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言编写的。　　Spark里的计算都是操作RDD进行，那么学习RDD的第一个问题就是如何构建RD

2018-02-05 13:02:12 270

原创 spark开发环境搭建（基于idea 和maven）

使用idea构建maven 管理的spark项目，默认已经装好了idea 和Scala那么使用idea 新建maven 管理的spark 项目有以下几步:scala插件的安装全局JDK和Library的设置配置全局的Scala SDK新建maven项目属于你的”Hello World!”导入spark依赖编写sprak代码打包在spark上运行1.scala插件的

2018-02-03 16:40:47 373

转载 Python 资源大全

这又是一个 Awesome XXX 系列的资源整理，由 vinta 发起和维护。内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。伯乐在线已在 GitHub 上发起「Python 资源大全中文版」的整理。欢迎扩散、欢迎加入。GitHub - jobbole/awesome-python-cn: Pyth

2018-02-03 12:59:02 395

原创 Idea配置sbt(window环境)

近开发spark项目使用到scala语言，这里介绍如何在idea上使用sbt来编译项目。开发环境：windows1. 下载sbthttp://www.scala-sbt.org/download.html我使用的是zip包，下载后解压到d:\tool\目录2.添加配置2.1 打开D:\tool\sbt\conf\sbtconfig.txt，在最后添加下面几行配置，注

2018-02-03 10:00:54 2741

转载 Spark在Windows下的环境搭建

由于Spark是用Scala来写的，所以Spark对Scala肯定是原生态支持的，因此这里以Scala为主来介绍Spark环境的搭建，主要包括四个步骤，分别是：JDK的安装，Scala的安装，Spark的安装，Hadoop的下载和配置。为了突出”From Scratch”的特点（都是标题没选好的缘故），所以下面的步骤稍显有些啰嗦，老司机大可不必阅读，直接跳过就好。　　一．JDK的安装

2018-02-02 16:57:56 1034

原创 hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建（3）

一、文件准备 scala-2.12.1.tgz 下载地址: http://www.scala-lang.org/download/2.12.1.html 二、工具准备 2.1 Xshell 2.2 Xftp 三、操作步骤 3.1 通过Xftp将下载下来的Scala上传到指定虚拟机上传到

2018-02-02 15:44:04 532

原创 hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建（2）安装hadoop

一、依赖安装安装JDK 二、文件准备 hadoop-2.7.3.tar.gz 2.2 下载地址 http://hadoop.apache.org/releases.html 三、工具准备 3.1 Xshell 3.2 Xftp 四、部署图

2018-02-02 15:43:07 293

原创 hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建（1）安装jdk

一、文件准备下载jdk-8u131-linux-x64.tar.gz 二、工具准备 2.1 Xshell 2.2 Xftp三、操作步骤 3.1 解压文件： $ tar zxvf jdk-8u131-linux-x64.tar.gz 解压后文件目录移动到/opt/modules

2018-02-02 15:39:07 287

CODE男孩的博客