lhui798-CSDN博客

转载基于trait的多重继承构造器的执行顺序、基于trait的AOP实践

多重继承package kmust.hjr.learningScala15/** * Created by Administrator on 2015/7/20. */class Human{ println("Human")}trait TTeacher extends Human{ println("TTeacher") def teach}trai

2017-01-05 14:35:14 393

转载 scala中的var,val,immutable,mutable理解小结

最近项目要用到spark平台，无论是看源码还是写程序都需要用scala语言，接触了两天之后，对映射Map这里有点疑问，做了点测试之后记一记自己的想法。首先，在scala中定义变量有var和val两种方式，前者定义一个可变量，后者定义一个不可变量，类似Java中的final或者C++中的const，如图1的示例可展示两者的区别。图1 尝试改变一个

2016-09-08 15:58:01 597

转载设计模式经典书籍必备推荐

很多朋友问学习设计模式的书籍，老大沧浪在FAQ里有个简短的叙述，这里我引申一下，说说自己看过或者翻过的设计模式书籍，由于水平所限，肯定有不对的地方，希望大家指正，如果大家看到好的模式相关书籍，希望能回帖补充。首先模式是不分语言的，Beck在他的TDD一书中用python实现了Composite模式，充分证明了这一点。不过我认为目前模式方面的好书基本都是基于java语言的，所以不管你

2016-07-31 08:06:07 772

原创 spark源码阅读RDD中WithScope是什么？

withScope是最近的发现版中新增加的一个模块，它是用来做DAG可视化的（DAG visualization on SparkUI）以前的sparkUI中只有stage的执行情况，也就是说我们不可以看到上个RDD到下个RDD的具体信息。于是为了在sparkUI中能展示更多的信息。所以把所有创建的RDD的方法都包裹起来，同时用RDDOperationScope 记录 RDD

2016-07-08 14:54:56 3803

原创版本定制第5课：基于案例一节课贯通Spark Streaming流计算框架的运行源码

本期内容：1、在线动态计算分类最热门商品案例回顾与演示2、基于案例贯通Spark Streaming的运行源码第一部分案例：package com.dt.spark.sparkstreamingimport com.robinspark.utils.ConnectionPoolimport org.apache.spark.SparkConfim

2016-05-07 23:53:24 5457

原创第4课版本定制：Spark Streaming事务处理彻底掌握

本期内容1、Exactly Once2、输出不重复事务：银行转帐为例，A用户转账给B用户，B用户可能收到多笔钱，如何保证事务的一致性，也就是说事务输出，能够输出且只会输出一次，即A只转一次，B只收一次。从事务视角解密SparkStreaming架构：SparkStreaming应用程序启动，会分配资源，除非整个集群硬件资源崩溃，一般情况下都不会有问题

2016-05-05 11:15:17 986

原创第3课：SparkStreaming 透彻理解三板斧之三：解密SparkStreaming运行机制和架构进阶之Job和容错

本期内容：1、解密Spark Streaming Job架构和运行机制2、解密Spark Streaming容错架构和运行机制理解SparkStreaming的Job的整个架构和运行机制对于精通SparkStreaming是至关重要的。我们知道对于一般的Spark应用程序来说，是RDD的action操作触发了Job的运行。那对于SparkStreaming来说，Job是怎么样运行的呢？

2016-05-04 21:39:13 640

转载基于Spark MLlib平台的协同过滤算法---电影推荐系统

又好一阵子没有写文章了，阿弥陀佛...最近项目中要做理财推荐，所以，回过头来回顾一下协同过滤算法在推荐系统中的应用。说到推荐系统，大家可能立马会想到协同过滤算法。本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用。其中，主要包括三部分内容：协同过滤算法概述基于模型的协同过滤应用---电影推荐实时推荐架构分析

2016-05-04 15:15:54 1892

原创 Spark版本定制第2天：通过案例对SparkStreaming透彻理解之二

本期内容：1 解密Spark Streaming运行机制2 解密Spark Streaming架构　　一切不能进行实时流处理的数据都是无效的数据。在流处理时代，SparkStreaming有着强大吸引力，而且发展前景广阔，加之Spark的生态系统，Streaming可以方便调用其他的诸如SQL，MLlib等强大框架，它必将一统天下。　　Spark Streaming运行时与其说是S

2016-05-03 18:39:47 916

原创 Spark版本定制第1天：通过案例对SparkStreaming透彻理解之一

1

2016-05-03 18:23:07 663

转载 Spark History Server配置使用

Spark history Server产生背景以standalone运行模式为例，在运行Spark Application的时候，Spark会提供一个WEBUI列出应用程序的运行时信息；但该WEBUI随着Application的完成(成功/失败)而关闭，也就是说，Spark Application运行完(成功/失败)后，将无法查看Application的历史记录；Spark

2016-05-02 16:43:40 1377

原创【Scala一】Scala各种符号的含义

::::::::运算符:::(三个冒号)表示List的连接操作，比如： Java代码val a = List(1, 2) val b = List(3, 4) val c = a ::: b val a = List(1, 2)val b = List(3, 4)val c = a ::: b 其中a,b保持不变，

2016-05-01 07:32:38 17163 1

原创第88课：SparkStreaming从Flume Poll数据案例实战和内部源码解密

本期内容：1、Spark Streaming on Polling from Flume实战2、Spark Streaming on Polling from Flume源码前置问题：1、提问：当Flume push数据给SparkStreaming时可能会出现什么问题？回答：可能会出现SparkStreaming来不及消费数据的情况，所以现在采用poll的

2016-04-30 14:25:01 8287

原创第93课：Spark Streaming updateStateByKey案例实战和内幕源码解密

本节课程主要分二个部分：一、Spark Streaming updateStateByKey案例实战二、Spark Streaming updateStateByKey源码解密第一部分：updateStateByKey的主要功能是随着时间的流逝，在Spark Streaming中可以为每一个可以通过CheckPoint来维护一份state状态，通过更新函数对该key的状

2016-04-30 12:03:25 9924

原创第82课：Spark Streaming第一课：案例动手实战并在电光石火间理解其工作原理

本期内容：1、Spark Streaming 动手实战演示2、闪电般理解Spark Streaming原理案例动手实战并在电光石火间理解其工作原理流（Streaming），在大数据时代为数据流处理，就像水流一样，是数据流；既然是数据流处理，就会想到数据的流入、数据的加工、数据的流出。日常工作、生活中数据来源很多不同的地方。例如：工业时代的汽车制造、监控设备、工业设备

2016-04-18 11:40:30 877

转载深入理解JVM--JVM垃圾回收机制

Java语言出来之前，大家都在拼命的写C或者C++的程序，而此时存在一个很大的矛盾，C++等语言创建对象要不断的去开辟空间，不用的时候有需要不断的去释放控件，既要写构造函数，又要写析构函数，很多时候都在重复的allocated，然后不停的~析构。于是，有人就提出，能不能写一段程序在实现这块功能，每次创建，释放控件的时候复用这段代码，而无需重复的书写呢？1960年基于MIT的Lisp首先提

2016-04-11 14:34:39 397

原创决策树

最近一段时间在Coursera上学习Data Analysis，里面有个assignment涉及到了决策树，所以参考了一些决策树方面的资料，现在将学习过程的笔记整理记录于此，作为备忘。 (示例中拥有房产（是/否）)作为labellabel就是结论，由feature->label假设这是一个结算过程y=f(x)那么，转换成语言就是label=f(fe

2016-04-01 12:32:58 700

转载 SVM多类划分问题 one vs rest

发信人: JustForward (好的), 信区: AI 标题: SVM多类划分问题发信站: BBS 水木清华站 (Mon Jul 12 10:55:13 2004), 站内一般情况下SVM有两种多类划分的方法，一种是one vs rest另外一种是pairwise。下面是我根据所阅读的文献对两种多类划分的理解，请大虾看看是否正确，并且还附带有问题 1）on

2016-04-01 12:22:19 9206

原创第13课Spark内核架构解密

第一阶段：Spark streaming、spark sql、kafka、spark内核原理（必须有一个大型项目经验）；第二阶段：spark运行的各种环境，各种故障的解决，性能优化（精通spark内核、运行原理）；第三阶段：流处理、机器学习为鳌头，需要首先掌握前两个阶段的内容；跟随王家林老师的零基础讲解，注重动手实战，成为spark高数，笑傲大数据之林！本期内容：1 通过手

2016-01-17 11:45:13 1417

原创第六课spark分布式环境搭建

第一阶段：Spark streaming、spark sql、kafka、spark内核原理（必须有一个大型项目经验）；第二阶段：spark运行的各种环境，各种故障的解决，性能优化（精通spark内核、运行原理）；第三阶段：流处理、机器学习为鳌头，需要首先掌握前两个阶段的内容；跟随王家林老师的零基础讲解，注重动手实战，成为spark高数，笑傲大数据之林！粗粒度 spark程序提

2016-01-10 20:03:54 768

原创第7课在自己搭建的spark集群下运行程序实例

第一阶段：Spark streaming、spark sql、kafka、spark内核原理（必须有一个大型项目经验）；第二阶段：spark运行的各种环境，各种故障的解决，性能优化（精通spark内核、运行原理）；第三阶段：流处理、机器学习为鳌头，需要首先掌握前两个阶段的内容；跟随王家林老师的零基础讲解，注重动手实战，成为spark高数，笑傲大数据之林！第一部分课堂笔记

2016-01-10 19:53:37 821

原创第8课：彻底实战详解使用IDE开发Spark程序

第一阶段：Spark streaming、spark sql、kafka、spark内核原理（必须有一个大型项目经验）；第二阶段：spark运行的各种环境，各种故障的解决，性能优化（精通spark内核、运行原理）；第三阶段：流处理、机器学习为鳌头，需要首先掌握前两个阶段的内容；跟随王家林老师的零基础讲解，注重动手实战，成为spark高数，笑傲大数据之林！第一部分学习笔记im

2016-01-10 19:47:01 746

原创大数据系列第五课：scala基础

第一阶段：Spark streaming、spark sql、kafka、spark内核原理（必须有一个大型项目经验）；第二阶段：spark运行的各种环境，各种故障的解决，性能优化（精通spark内核、运行原理）；第三阶段：流处理、机器学习为鳌头，需要首先掌握前两个阶段的内容；跟随王家林老师的零基础讲解，注重动手实战，成为spark高数，笑傲大数据之林！第一部分学习笔记/*

2016-01-06 23:04:29 683

原创大数据系列第四课：scala基础

彻底征服Scala模式匹配和类型系统第一部分学习笔记 //一、模式匹配（类似java switch case 但java switch case只对值进行匹配） def bigData(data: String){ data match{ case "Spark" => println("Wow!!!")//不需要break cas

2016-01-04 23:07:06 460

原创大数据系列第二课：scala基础

第二部分作业RDD类源码解析：class RDD它是个抽象类private[class_name] 指定可以访问该字段的类，访问的级别较严，在编译时，会自动的生成get和set方法，class_name必须是当前定义的类或类的外部类。private[spark] def conf = sc.confclass RDD类中有很多加了final修饰符的方法，表示：此

2016-01-04 11:47:49 541

原创大数据系列第三课：scala基础

第一阶段：Spark streaming、spark sql、kafka、spark内核原理（必须有一个大型项目经验）；第二阶段：spark运行的各种环境，各种故障的解决，性能优化（精通spark内核、运行原理）；第三阶段：流处理、机器学习为鳌头，需要首先掌握前两个阶段的内容；跟随王家林老师的零基础讲解，注重动手实战，成为spark高数，笑傲大数据之林！第一部分：学习笔记

2016-01-03 22:32:58 778

原创大数据系列第一课：scala基础

内容：1 Scala的重大价值2 Scala基础语法入门实战3 Scala函数入门实战4 Scala中Array、Map、Tuple实战5 综合案例及Spark源码解析一、scala价值Scala可伸缩的语言的英语翻译是：Scalable Language。它是一门多范式的编程语言，一种类似java的编程语言，集成面向对象编程和函数式编程的各种特性并完美结合，熟练掌握s

2016-01-03 18:22:44 557

转载 HDFS HA与QJM[官网整理]

【使用QJM构建HDFS HA架构(2.2+)】本文主要介绍HDFS HA特性，以及如何使用QJM(Quorum Journal Manager)特性实现HDFS HA。一、背景HDFS集群中只有一个Namenode，这就会引入单点问题；即如果Namenode故障，那么这个集群将不可用，直到Namenode重启或者其他Namenode接入。有两种方式会影响集群的整体可用性：1、

2015-11-20 16:28:20 443

转载 Hadoop2.0的HA介绍

原文 http://www.linuxidc.com/Linux/2014-05/101174.htm主题 Hadoop NFS前一篇文章介绍了Hadoop2.0（hadoop2.0架构，具体版本是hadoop2.2.0）的安装和最基本的配置（见 http://www.linuxidc.com/Linux/2014-05/101173.htm ），并没有

2015-11-20 16:26:33 339

转载关于Linux和Windows文件路径的解决办法

Linux系统下的文件夹路径和window下的不一样，windows下就需要写成“\\photos"因为java会把第一个"\"当成转义字符给“吃了”。但在linux下就是“/photos”呵呵，是不是很郁闷阿。所以你的if (myFile.newFolder(path+"\\photos"))就应该写成if (myFile.newFolder(path+"/photos"

2015-06-30 09:38:20 505

转载 Redis介绍以及安装（Linux）

Redis介绍以及安装（Linux） redis是当前比较热门的NOSQL系统之一，它是一个key-value存储系统。和Memcached类似，但很大程度补偿了memcached的不足，它支持存储的value类型相对更多，包括string、list、set、zset和hash。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作。在此基础上，

2015-05-25 11:35:39 309

lhui798的专栏