自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

转载 基于trait的多重继承构造器的执行顺序、基于trait的AOP实践

多重继承package kmust.hjr.learningScala15/** * Created by Administrator on 2015/7/20. */class Human{ println("Human")}trait TTeacher extends Human{ println("TTeacher") def teach}trai

2017-01-05 14:35:14 393

转载 scala中的var,val,immutable,mutable理解小结

最近项目要用到spark平台,无论是看源码还是写程序都需要用scala语言,接触了两天之后,对映射Map这里有点疑问,做了点测试之后记一记自己的想法。       首先,在scala中定义变量有var和val两种方式,前者定义一个可变量,后者定义一个不可变量,类似Java中的final或者C++中的const,如图1的示例可展示两者的区别。图1       尝试改变一个

2016-09-08 15:58:01 597

转载 设计模式 经典书籍必备推荐

很多朋友问学习设计模式的书籍,老大沧浪在FAQ里有个简短的叙述,这里我引申一下,说说自己看过或者翻过的设计模式书籍,由于水平所限,肯定有不对的地方,希望大家指正,如果大家看到好的模式相关书籍,希望能回帖补充。首 先模式是不分语言的,Beck在他的TDD一书中用python实现了Composite模式,充分证明了这一点。不过我认为目前模式方面的好书基本都是 基于java语言的,所以不管你

2016-07-31 08:06:07 772

原创 spark源码阅读RDD中WithScope是什么?

withScope是最近的发现版中新增加的一个模块,它是用来做DAG可视化的(DAG visualization on SparkUI)以前的sparkUI中只有stage的执行情况,也就是说我们不可以看到上个RDD到下个RDD的具体信息。于是为了在sparkUI中能展示更多的信息。所以把所有创建的RDD的方法都包裹起来,同时用RDDOperationScope 记录 RDD

2016-07-08 14:54:56 3803

原创 版本定制第5课:基于案例一节课贯通Spark Streaming流计算框架的运行源码

本期内容:1、在线动态计算分类最热门商品案例回顾与演示2、基于案例贯通Spark Streaming的运行源码第一部分案例:package com.dt.spark.sparkstreamingimport com.robinspark.utils.ConnectionPoolimport org.apache.spark.SparkConfim

2016-05-07 23:53:24 5457

原创 第4课版本定制:Spark Streaming事务处理彻底掌握

本期内容1、Exactly Once2、输出不重复事务:银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。从事务视角解密SparkStreaming架构:SparkStreaming应用程序启动,会分配资源,除非整个集群硬件资源崩溃,一般情况下都不会有问题

2016-05-05 11:15:17 986

原创 第3课:SparkStreaming 透彻理解三板斧之三:解密SparkStreaming运行机制和架构进阶之Job和容错

本期内容:1、解密Spark Streaming Job架构和运行机制2、解密Spark Streaming容错架构和运行机制理解SparkStreaming的Job的整个架构和运行机制对于精通SparkStreaming是至关重要的。我们知道对于一般的Spark应用程序来说,是RDD的action操作触发了Job的运行。那对于SparkStreaming来说,Job是怎么样运行的呢?

2016-05-04 21:39:13 640

转载 基于Spark MLlib平台的协同过滤算法---电影推荐系统

又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用。    说到推荐系统,大家可能立马会想到协同过滤算法。本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用。其中,主要包括三部分内容:协同过滤算法概述基于模型的协同过滤应用---电影推荐实时推荐架构分析

2016-05-04 15:15:54 1892

原创 Spark版本定制第2天:通过案例对SparkStreaming透彻理解之二

本期内容:1 解密Spark Streaming运行机制2 解密Spark Streaming架构  一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。  Spark Streaming运行时与其说是S

2016-05-03 18:39:47 916

原创 Spark版本定制第1天:通过案例对SparkStreaming透彻理解之一

1

2016-05-03 18:23:07 663

转载 Spark History Server配置使用

Spark history Server产生背景以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息;但该WEBUI随着Application的完成(成功/失败)而关闭,也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历史记录;Spark

2016-05-02 16:43:40 1377

原创 【Scala一】Scala各种符号的含义

::::::::运算符:::(三个冒号)表示List的连接操作,比如: Java代码val a = List(1, 2)   val b = List(3, 4)   val c = a ::: b  val a = List(1, 2)val b = List(3, 4)val c = a ::: b  其中a,b保持不变,

2016-05-01 07:32:38 17163 1

原创 第88课:SparkStreaming从Flume Poll数据案例实战和内部源码解密

本期内容:1、Spark Streaming on Polling from Flume实战2、Spark Streaming on Polling from Flume源码前置问题:1、提问:当Flume push数据给SparkStreaming时可能会出现什么问题?      回答:可能会出现SparkStreaming来不及消费数据的情况,所以现在采用poll的

2016-04-30 14:25:01 8287

原创 第93课:Spark Streaming updateStateByKey案例实战和内幕源码解密

本节课程主要分二个部分:一、Spark Streaming updateStateByKey案例实战二、Spark Streaming updateStateByKey源码解密第一部分:updateStateByKey的主要功能是随着时间的流逝,在Spark Streaming中可以为每一个可以通过CheckPoint来维护一份state状态,通过更新函数对该key的状

2016-04-30 12:03:25 9924

原创 第82课:Spark Streaming第一课:案例动手实战并在电光石火间理解其工作原理

本期内容:1、Spark Streaming 动手实战演示2、闪电般理解Spark Streaming原理案例动手实战并在电光石火间理解其工作原理流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流;既然是数据流处理,就会想到数据的流入、数据的加工、数据的流出。日常工作、生活中数据来源很多不同的地方。例如:工业时代的汽车制造、监控设备、工业设备

2016-04-18 11:40:30 877

转载 深入理解JVM--JVM垃圾回收机制

Java语言出来之前,大家都在拼命的写C或者C++的程序,而此时存在一个很大的矛盾,C++等语言创建对象要不断的去开辟空间,不用的时候有需要不断的去释放控件,既要写构造函数,又要写析构函数,很多时候都在重复的allocated,然后不停的~析构。于是,有人就提出,能不能写一段程序在实现这块功能,每次创建,释放控件的时候复用这段代码,而无需重复的书写呢?1960年 基于MIT的Lisp首先提

2016-04-11 14:34:39 397

原创 决策树

最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 (示例中 拥有房产(是/否))作为labellabel就是结论,由feature->label假设这是一个结算过程y=f(x)那么,转换成语言就是label=f(fe

2016-04-01 12:32:58 700

转载 SVM多类划分问题 one vs rest

发信人: JustForward (好的), 信区: AI 标  题: SVM多类划分问题 发信站: BBS 水木清华站 (Mon Jul 12 10:55:13 2004), 站内 一般情况下SVM有两种多类划分的方法,一种是one vs rest另外一种是pairwise。 下面是我根据所阅读的文献对两种多类划分的理解,请大虾看看是否正确,并且还附带有问题 1)on

2016-04-01 12:22:19 9206

原创 第13课Spark内核架构解密

第一阶段:Spark streaming、spark sql、kafka、spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理);第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容;跟随王家林老师的零基础讲解,注重动手实战,成为spark高数,笑傲大数据之林!本期内容:1 通过手

2016-01-17 11:45:13 1417

原创 第六课spark分布式环境搭建

第一阶段:Spark streaming、spark sql、kafka、spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理);第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容;跟随王家林老师的零基础讲解,注重动手实战,成为spark高数,笑傲大数据之林!粗粒度 spark程序提

2016-01-10 20:03:54 768

原创 第7课在自己搭建的spark集群下运行程序实例

第一阶段:Spark streaming、spark sql、kafka、spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理);第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容;跟随王家林老师的零基础讲解,注重动手实战,成为spark高数,笑傲大数据之林!第一部分课堂笔记

2016-01-10 19:53:37 821

原创 第8课:彻底实战详解使用IDE开发Spark程序

第一阶段:Spark streaming、spark sql、kafka、spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理);第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容;跟随王家林老师的零基础讲解,注重动手实战,成为spark高数,笑傲大数据之林!第一部分学习笔记im

2016-01-10 19:47:01 746

原创 大数据系列第五课:scala基础

第一阶段:Spark streaming、spark sql、kafka、spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理);第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容;跟随王家林老师的零基础讲解,注重动手实战,成为spark高数,笑傲大数据之林!第一部分学习笔记/*

2016-01-06 23:04:29 683

原创 大数据系列第四课:scala基础

彻底征服Scala模式匹配和类型系统第一部分学习笔记 //一、模式匹配(类似java switch case 但java switch case只对值进行匹配) def bigData(data: String){ data match{ case "Spark" => println("Wow!!!")//不需要break cas

2016-01-04 23:07:06 460

原创 大数据系列第二课:scala基础

第二部分作业RDD类源码解析:class RDD它是个抽象类private[class_name] 指定可以访问该字段的类,访问的级别较严,在编译时,会自动的生成get和set方法,class_name必须是当前定义的类或类的外部类。private[spark] def conf = sc.confclass RDD类中有很多加了final修饰符的方法,表示:此

2016-01-04 11:47:49 541

原创 大数据系列第三课:scala基础

第一阶段:Spark streaming、spark sql、kafka、spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理);第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容;跟随王家林老师的零基础讲解,注重动手实战,成为spark高数,笑傲大数据之林!第一部分:学习笔记

2016-01-03 22:32:58 778

原创 大数据系列第一课:scala基础

内容:1 Scala的重大价值2 Scala基础语法入门实战3 Scala函数入门实战4 Scala中Array、Map、Tuple实战5 综合案例及Spark源码解析一、scala价值Scala可伸缩的语言的英语翻译是:Scalable Language。它是一门多范式的编程语言,一种类似java的编程语言,集成面向对象编程和函数式编程的各种特性并完美结合,熟练掌握s

2016-01-03 18:22:44 557

转载 HDFS HA与QJM[官网整理]

【使用QJM构建HDFS HA架构(2.2+)】本文主要介绍HDFS HA特性,以及如何使用QJM(Quorum Journal Manager)特性实现HDFS HA。一、背景HDFS集群中只有一个Namenode,这就会引入单点问题;即如果Namenode故障,那么这个集群将不可用,直到Namenode重启或者其他Namenode接入。有两种方式会影响集群的整体可用性:1、

2015-11-20 16:28:20 443

转载 Hadoop2.0的HA介绍

原文  http://www.linuxidc.com/Linux/2014-05/101174.htm主题 Hadoop NFS前一篇文章介绍了Hadoop2.0(hadoop2.0架构,具体版本是hadoop2.2.0)的安装和最基本的配置(见 http://www.linuxidc.com/Linux/2014-05/101173.htm  ),并没有

2015-11-20 16:26:33 339

转载 关于Linux和Windows文件路径的解决办法

Linux系统下的文件夹路径和window下的不一样,windows下就需要写成“\\photos"因为java会把第一个"\"当成转义字符给“吃了”。但在linux下就是“/photos”呵呵,是不是很郁闷阿。所以你的if (myFile.newFolder(path+"\\photos"))就应该写成if (myFile.newFolder(path+"/photos"

2015-06-30 09:38:20 505

转载 Redis介绍以及安装(Linux)

Redis介绍以及安装(Linux)      redis是当前比较热门的NOSQL系统之一,它是一个key-value存储系统。和Memcached类似,但很大程度补偿了memcached的不足,它支持存储的value类型相对更多,包括string、list、set、zset和hash。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作。在此基础上,

2015-05-25 11:35:39 309

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除