自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

转载 Spark Streaming编程指南

一、概述  Spark Streaming是基于Core Spark API的可扩展,高吞吐量,并具有容错能力的用于处理实时数据流的一个组件。Spark Streaming可以接收各种数据源传递来的数据,比如Kafka, Flume, Kinesis或者TCP等,对接收到的数据还可以使用一些用高阶函数(比如map, reduce, join及window)进行封装的复杂算法做进一步的处

2017-07-11 15:29:18 457

转载 Spark Streaming中的操作函数

根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func)  map操作需要传入一个函数当做参数,具体调用形式为

2017-07-10 20:52:58 458

转载 scala之trait理解

核心内容: 1、混入特质trait的3种方式 2、多重继承构造器执行顺序 3、基于trait的AOP代码实战1、混入特质的3种方式以及多重继承构造器的执行顺序1、除了在类定义中混入特质以外,还可以在特质定义中混入特质以及在对象构造时混入特质 (注意:创建对象时混入特质,要重写trait中的抽象方法 ) 2、特质的构造是有顺序的,从左到

2017-07-10 15:22:14 460

转载 利用Flume将MySQL表数据准实时抽取到HDFS

http://blog.csdn.net/wzy0623/article/details/73650053一、为什么要用到Flume        在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性。Sqoop使用MapReduc

2017-07-08 21:18:43 676

转载 Hbase架构以及应用介绍

Hbase全称为Hadoop Database,即hbase是hadoop的数据库,是一个分布式的存储系统。Hbase利用Hadoop的HDFS作为其文件存储系统,利用Hadoop的MapReduce来处理Hbase中的海量数据。利用zookeeper作为其协调工具。 本篇文章将重点介绍Hbase三个方面的内容:Hbase体系结构(架构)的介绍、Hbase shell的操作、Hbase的Jav

2017-07-08 21:15:03 561

转载 Sqoop架构以及应用介绍

本篇文章在具体介绍Sqoop之前,先给大家用一个流程图介绍Hadoop业务的开发流程以及Sqoop在业务当中的实际地位。  如上图所示:在实际的业务当中,我们首先对原始数据集通过MapReduce进行数据清洗,然后将清洗后的数据存入到Hbase数据库中,而后通过数据仓库Hive对hbase中的数据进行统计与分析,分析之后将分析结果存入到hive表中,然后通过Sqoop这个工具将我们的数据挖

2017-07-08 18:59:26 425

转载 Flume架构以及应用介绍

http://blog.csdn.net/a2011480169/article/details/51544664在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程:  从hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flum

2017-07-08 18:41:58 255

转载 大数据环境下该如何优雅地设计数据分层

最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:……发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现

2017-07-02 23:07:59 394

转载 Spark在Windows下的环境搭建

由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。   一.JDK的安装

2017-07-02 21:34:20 286

转载 scala-继承与组合

http://blog.csdn.net/lovehuangjiaju/article/details/47029287主要内容类的继承构造函数执行顺序方法重写匿名类多态与动态绑定组合与继承的使用1 类的继承下类的代码演示了Scala类的继承//Person类class Person(name:String,age:Int){}//Student继

2017-07-02 20:33:10 334

转载 scala-类和对象

http://blog.csdn.net/lovehuangjiaju/article/details/47009607本节主要内容1 类定义、创建对象 2 主构造器 3 辅助构造器类定义、创建对象//采用关键字class定义class Person { //类成员必须初始化,否则会报错 //这里定义的是一个公有成员 var name:Stri

2017-07-02 19:47:06 265

numpy.exe、scipy.exe

windows下numpy和scipy最简单的安装方法

2016-01-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除