自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

CODE男孩的博客

你只是看起来很努力,,,,,

  • 博客(24)
  • 资源 (3)
  • 收藏
  • 关注

转载 SparkSQL(下)--Spark实战应用

1、运行环境说明1.1 硬软件环境l  主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l  虚拟软件:VMware® Workstation 9.0.0 build-812388l  虚拟机操作系统:CentOS 64位,单核l  虚拟机运行环境:Ø  JDK:1.7.0_55 64位Ø  Hadoop:2.2.0(需要编译为64位)Ø  Scala:2.10.4Ø  ...

2018-02-08 16:33:00 485

转载 SparkSQL(中)--深入了解SparkSQL运行计划及调优

1.1  运行环境说明1.1.1 硬软件环境l  主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l  虚拟软件:VMware® Workstation 9.0.0 build-812388l  虚拟机操作系统:CentOS6.5 64位,单核l  虚拟机运行环境:Ø  JDK:1.7.0_55 64位Ø  Hadoop:2.2.0(需要编译为64位)Ø  Scala:2...

2018-02-08 16:32:06 351

转载 SparkSQL(上)--SparkSQL简介

1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,大量的S...

2018-02-08 16:30:25 311

转载 Hive(下)--Hive实战

1、Hive操作演示1.1 内部表1.1.1 创建表并加载数据第一步   启动HDFS、YARN和Hive,启动完毕后创建Hive数据库hive>create database hive;hive>show databases;hive>use hive;第二步   创建内部表由于Hive使用了类似SQL的语法,所以创建内部表的语句相对SQL只增加了行和字段分隔符。hive&gt...

2018-02-08 16:27:37 647

转载 Hive(上)--Hive介绍及部署

1、Hive介绍1.1 Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点:l  优点:1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线;2.使用JDBC 接口/...

2018-02-08 16:26:52 354 1

转载 Spark机器学习库(MLlib)官方指南手册中文版

Spark机器学习库(MLlib)指南       MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具:       1.机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。       2.特征工程:特征提取、特征转换、特征选择以及降维。       3.管道:构造、评估和调整的管道的工具。       4.存储:保存和加载算法、模型及...

2018-02-08 12:27:46 289

转载 HBase详细概述

本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。不过在此之前,你可以先了解 Hadoop生态系统 ,若想运行HBase,则需要先搭建好Hadoop集群环境,可以参考此文搭建5个节点的hadoop集群环境(CDH5) 。好了,让我们来学习HBase

2018-02-06 15:22:27 623

转载 Spark RDD API 参考示例(四)

本文参考Zhen He42、map原型 def map[U: ClassTag](f: T => U): RDD[U]含义 map 对RDD中的每一个item 应用一个函数,并且返回一个新的RDD示例val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)

2018-02-05 13:25:47 275

转载 Spark RDD API 参考示例(六)

本文参考Zhen He69、take原型 def take(num: Int): Array[T]含义 take 提取RDD中元素的前几个,这几个是没有排序的,不需要排序,但是这个底部代码实现起来非常困难,因为他们分布在不同的分区示例val a = sc.parallelize(1 to 10,2)a.take(2)res1: Array[Int]

2018-02-05 13:24:37 191

转载 Spark RDD API 参考示例(五)

本文参考Zhen He57、sample原型 def sample(withReplacement: Boolean, fraction: Double, seed: Int): RDD[T]含义 sample 随机挑选RDD中的一部分产生新的RDD,withReplacement表示是否允许重复挑选,fraction表示挑选比例,seed表示随机初始化种子

2018-02-05 13:23:48 226

转载 Spark RDD API 参考示例(三)

本文参考Zhen He28、getCheckpointFile原型 def getCheckpointFile: Option[String]含义 getCheckpointFile 返回RDD的checkpoint 文件的路径,主要用于对大型计算中恢复到指定的节点示例//设置CheckPoint的路径,前提是路径一定要存在sc.setCheckpoi

2018-02-05 13:18:59 347

转载 Spark RDD API 参考示例(二)

16、dependencies原型 final def dependencies: Seq[Dependency[_]]含义 dependencies 返回RDD的依赖,简单来说,就是这个RDD是怎么一步步生成的。通过这种方式可以很快的重新构建这个RDD示例val b = sc.parallelize(List(1,2,3,4,5,6,7,8,2,4,2,1,1

2018-02-05 13:17:47 233

转载 Spark RDD API 参考示例(一)

本文参考Zhen He1、aggregate原型 def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U含义 aggregate是一个聚合函数,一个RDD分区后,产生多个Partition,在aggregate中需要指定两个处理函数,第一个函数用于对每个

2018-02-05 13:16:11 378

原创 Spark笔记:复杂RDD的API的理解(下)

本篇接着谈谈那些稍微复杂的API。1)   flatMapValues:针对Pair RDD中的每个值应用一个返回迭代器的函数,然后对返回的每个元素都生成一个对应原键的键值对记录  这个方法我最开始接触时候,总是感觉很诧异,不是太理解,现在回想起来主要原因是我接触的第一个flatMapValues的例子是这样的,代码如下:123

2018-02-05 13:10:51 279

原创 Spark笔记:复杂RDD的API的理解(上)

本篇接着讲解RDD的API,讲解那些不是很容易理解的API,同时本篇文章还将展示如何将外部的函数引入到RDD的API里使用,最后通过对RDD的API深入学习,我们还讲讲一些和RDD开发相关的scala语法。1)  aggregate(zeroValue)(seqOp,combOp)   该函数的功能和reduce函数一样,也是对数据进行聚合操作,不过aggregate可以返回和原R

2018-02-05 13:09:44 244

原创 Spark笔记:RDD基本操作(下)

上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。  Spark是一个计算框架,是对mapreduce计算框架的改进,mapreduce计算框架是基于键值对也就是map的形式,之所以使用键值对是人们发现世界上大部分计算都可以使用map这样的简单计算模型进行计算。但是Spark里

2018-02-05 13:03:22 243

原创 Spark笔记:RDD基本操作(上)

本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言编写的。  Spark里的计算都是操作RDD进行,那么学习RDD的第一个问题就是如何构建RD

2018-02-05 13:02:12 270

原创 spark开发环境搭建(基于idea 和maven)

使用idea构建maven 管理的spark项目 ,默认已经装好了idea 和Scala那么使用idea 新建maven 管理的spark 项目有以下几步:scala插件的安装全局JDK和Library的设置配置全局的Scala SDK新建maven项目属于你的”Hello World!”导入spark依赖编写sprak代码打包在spark上运行1.scala插件的

2018-02-03 16:40:47 373

转载 Python 资源大全

这又是一个 Awesome XXX 系列的资源整理,由 vinta 发起和维护。内容包括:Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。伯乐在线已在 GitHub 上发起「Python 资源大全中文版」的整理。欢迎扩散、欢迎加入。GitHub - jobbole/awesome-python-cn: Pyth

2018-02-03 12:59:02 395

原创 Idea配置sbt(window环境)

近开发spark项目使用到scala语言,这里介绍如何在idea上使用sbt来编译项目。开发环境:windows1. 下载sbthttp://www.scala-sbt.org/download.html我使用的是zip包,下载后解压到d:\tool\目录2.添加配置2.1 打开D:\tool\sbt\conf\sbtconfig.txt,在最后添加下面几行配置,注

2018-02-03 10:00:54 2741

转载 Spark在Windows下的环境搭建

由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。   一.JDK的安装

2018-02-02 16:57:56 1034

原创 hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(3)

一、文件准备      scala-2.12.1.tgz      下载地址: http://www.scala-lang.org/download/2.12.1.html    二、工具准备    2.1 Xshell    2.2 Xftp 三、操作步骤   3.1 通过Xftp将下载下来的Scala上传到指定虚拟机上传到

2018-02-02 15:44:04 532

原创 hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(2)安装hadoop

一、依赖安装    安装JDK 二、文件准备         hadoop-2.7.3.tar.gz     2.2 下载地址         http://hadoop.apache.org/releases.html    三、工具准备    3.1 Xshell    3.2 Xftp 四、部署图

2018-02-02 15:43:07 293

原创 hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(1)安装jdk

一、文件准备     下载jdk-8u131-linux-x64.tar.gz    二、工具准备    2.1 Xshell    2.2 Xftp三、操作步骤   3.1 解压文件:        $ tar zxvf jdk-8u131-linux-x64.tar.gz        解压后文件目录移动到/opt/modules

2018-02-02 15:39:07 287

smartGit8.0.4操作文档

网上没找到 ,个人简单总结,欠缺之处,请提出来,与君共勉

2017-02-05

SSO单点登录

2016-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除