2015年02月_axxbc123

原创【JVM七】JVM知识点总结

1. JVM运行模式1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler md...

2015-02-28 20:21:20 176

原创【Akka一】Akka入门

什么是AkkaMessage-Driven Runtime is the Foundation to Reactive ApplicationsIn Akka, your business logic is driven through message-based communication patterns that are independent of physical locati...

2015-02-28 18:41:18 173

原创【Java命令八】jstat

jstat全称是JVM Statistics Monitoring Tool,是JVM内存和垃圾回收的统计和监控工具，它提供了众多的选项，通过它可以快速查看JVM运行状态以及内存的使用状态 1.类的加载和卸载统计 hadoop@hadoop bin]$ jstat -class 1819Loaded Bytes Unloaded Bytes Time ...

2015-02-28 13:28:35 129

原创【Scala十五】Scala核心九：隐式转换之二

隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButtonbutton.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) { ...

2015-02-27 17:14:49 88

原创【Scala十四】Scala核心八：闭包

Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => ...

2015-02-27 15:49:26 116

原创【Scala十三】Scala核心七：部分应用函数

何为部分应用函数？Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are...

2015-02-27 15:35:59 119

Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each...

2015-02-27 12:51:06 112

原创【Scala十一】Scala核心五：case模式匹配

package spark.examples.scala.grammars.caseclassesobject CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String) => (...

2015-02-27 11:51:10 240

原创【Spark八十】Spark RDD API二

coGrouppackage spark.examples.rddapiimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.SparkContext._object CoGroupTest_05 { def main(args: Array[String]) { ...

2015-02-26 11:31:03 86

原创【Spark七十九】Spark RDD API一

aggregatepackage spark.examples.rddapiimport org.apache.spark.{SparkConf, SparkContext}//测试RDD的aggregate方法object AggregateTest { def main(args: Array[String]) { val conf = new Sp...

2015-02-25 19:46:09 121

原创【Scala十】Scala核心四：集合框架之List

Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b，c是三个关键字...

2015-02-25 15:43:33 154

原创【Scala九】Scala核心三：泛型

泛型类package spark.examples.scala.genericsclass GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) }}object GenericClass { def main(args: Array[String...

2015-02-25 10:42:01 145

原创【Scala八】Scala核心二：隐式转换

Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to c...

2015-02-24 15:26:00 149

原创【Scala七】Scala核心一：函数

1. 如果函数体只有一行代码，则可以不用写{},比如def print(x: Int) = println(x)一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法体只有一句代码println(x),...

2015-02-24 14:51:12 208

原创【Spark七十八】Spark Kyro序列化

当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。Spark...

2015-02-22 19:25:29 465

原创【Kafka四】Kakfa伪分布式安装

在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不需要创建my...

2015-02-22 11:25:20 199

原创【Spark七十七】Spark分析Nginx和Apache的access.log

Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\".*?\") (-|[0-9]*) (-|[0-...

2015-02-21 23:52:03 330

原创【Spark七十六】Spark计算结果存到MySQL

package spark.examples.dbimport java.sql.{PreparedStatement, Connection, DriverManager}import com.mysql.jdbc.Driverimport org.apache.spark.{SparkContext, SparkConf}object SparkMySQLInt...

2015-02-21 19:37:19 311

原创【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j

先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上...

2015-02-21 13:04:32 122

原创【Spark七十四】Spark Streaming整合Flume-NG二

在http://bit1129.iteye.com/blog/2184467一文中对Spark Streaming整合Flume-NG进行了基本的配置，并且Spark Streaming能够监听到来自于Flume的数据输出(通过Sink)，不过代码很简单同时也是在单机上(Master和Worker在同一台机器上)进行试验的，因而还有有几个问题没有解决，本文继续Spark Streaming整合...

2015-02-21 10:58:18 231

原创【Spark七十三】Spark Streaming遇到的一个烂坑

在实验Spark Streaming的时候，提交如下脚本到Spark，总是看不到Spark Streaming的处理结果 ./spark-submit --deploy-mode client --name LogAnalyzerStreaming --master spark://hadoop.master:7077 --executor-memory 512M --total-...

2015-02-20 16:02:33 767

原创【Spark七十二】Spark的日志配置

在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.prop...

2015-02-20 11:41:44 455

原创【Spark七十一】Hash Based Shuffle之三Shuffle Write Map side combine

在这篇http://bit1129.iteye.com/blog/2186325博文中，分析了hash based shuffle write开启consolidationFiles选项的过程。本文，则关注将Iteratable 1. 如下代码是HashShuffleWriter.write方法在将partition的数据写入到磁盘前，进行map端的shuffle /** W...

2015-02-19 20:20:36 340

原创【Spark七十】Spark Standalone HA

目前没环境做这个事情，看了下，也没什么复杂的东西，就是Spark结合zookeeper实现HA，先记录下来吧，作为Spark的一个组成部分，以后再实验坑~ http://taoistwar.gitbooks.io/spark-operationand-maintenance-management/content/spark_install/spark_standalone_w...

2015-02-19 19:04:24 64

原创【Scala六】分析Spark源代码总结的Scala语法四

1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId: Int) =...

2015-02-19 18:24:23 124

原创【Spark六十九】Hash Based Shuffle之二Shuffle Write + ConsolidationFiles

在http://bit1129.iteye.com/blog/2180214一文中，分析了Hash based shuffle的写过程。其中分析的是，未开始map端产生的数据文件做consolidate的流程，不开启则会创建M*R个文件，如果M和R都很大，比如2000*600，那么120万个小文件的读写将是性能瓶颈，这也是Hadoop采用sort based shuffle以及Spark在1....

2015-02-19 15:39:00 204

原创【Spark六十八】Spark Streaming详解二

a 参考：http://www.cnblogs.com/shenh062326/p/3946341.html

2015-02-17 17:32:46 84

原创【Hadoop六】基于Yarn的Hadoop Map Reduce工作流程

1. 全分布式Hadoop启动和停止时，进程的启停顺序[hadoop@hadoop sbin]$ ./start-all.shThis script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting namenodes on [hadoop.master]hadoop.master: starti...

2015-02-16 23:13:53 133

原创【Spark六十七】Spark Standalone完全分布式安装

1. 下载并解压Spark1.2.1(with hadoop2.4)http://mirror.bit.edu.cn/apache/spark/spark-1.2.1/spark-1.2.1-bin-hadoop2.4.tgz 2.下载并解压Scala-2.10.4http://www.scala-lang.org/files/archive/scala-2.10.4.t...

2015-02-16 17:21:54 247

原创【Spark六十六】Spark求数据集平均值以及单词词频TopK

package spark.examples.avgimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.SparkContext._object SparkAvg { def main(args: Array[String]) { System.setPropert...

2015-02-16 13:59:04 294

原创【Spark六十五】slice、partition和inputsplit

slice和paritition是spark中的通用概念，表示一个原始数据块；比如使用SparkContext.parallelize方法可以把一个元素集合(不论多少元素）可以分解为多个分区(partition)Spark的partition可以是MapReduce中的input split，input split是Hadoop中的数据块的逻辑表示方式，input split可以一个或多...

2015-02-15 22:11:42 1918

原创【Spark六十四】Spark实现join功能

整理这个博客的原因有两个，1.在Spark的mailing list有人问道，Spark面试的话，一般会问些什么，有个人回复时提到他面试时一般会问问如何做join2.今天看了个博客，刚好讲到spark实现大数据join操作的两个算法，map-side join和reduce-side join，正好接此机会整理下 Map-Side JoinMap-side J...

2015-02-15 21:39:51 616

原创【Spark六十三】Hadoop MapReduce Task的进程模型与Spark Task的线程模型

Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的；而Spark Task则是基于线程模型的。多进程模型和多线程模型所谓的多进程模型和多线程模型，指的是同一个节点上多个任务的运行模式。无论是MapReduce和Spark，整体上看都是多进程的：MapReduce应用程序是由多个独立的Task进程组成的；Spark应用程序的运行环境是由多个独...

2015-02-15 18:40:47 697 1

原创【Spark六十二】Spark数据本地性以及调试注意的问题

数据的本地性数据本地性的意思就是尽量的避免数据在网络上的传输。Hadoop的MR之所以慢，频繁的读写HDFS是原因之一，为了解决这个问题，Spark将数据都放在了内存中（当然这是理想的情况，当内存不够用时数据仍然需要写到文件系统中）。但是如果数据需要在网络上传输，也会导致大量的延时和开销，毕竟disk IO和network IO都是集群的昂贵资源。数据本地性是尽量将计算移到数据所在的节点上进行。...

2015-02-15 17:20:40 359

原创【Flume二】HDFS sink细说

1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.channel...

2015-02-15 12:05:53 333

原创【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析

第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接1. Flume配置1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/flu...

2015-02-14 13:20:18 349

原创【Kafka二】Kafka工作原理详解

Kafka系统的角色Broker ：一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic。一个Broker上可以有一个Topic的多个Partition，每个Partition的Lead随机存在于某一个Broker，这样实现了Topic的读写的负载均衡topic：可以理解为一个MQ消息队列的名字Partition：...

2015-02-14 12:59:54 248

原创【Flume一】Flume入门

Flume基本架构图：一个Agent中有Source、Channel和Sink。Sink可以连接HDFS，JMS或者其他的Agent Source Flume术语解释FlumeEvent A Flume event is defined as a unit of data flow having a byte payload and an opti...

2015-02-14 09:50:08 417 1

原创【Spark五十八】Spark Streaming详解（重点窗口计算）

前面有几篇关于Spark Streaming的博客，那会只是作为Spark入门，快速体验Spark之用，只是照着葫芦画瓢。本文结合Spark官网上Spark Streaming的编程指南对Spark Streaming进行介绍StreamingContext如同SparkContext一样，StreamingContext也是Spark Streaming应用程序通往Spark集群的通...

2015-02-13 21:41:31 3323

原创【Spark五十七】Spark on Yarn重复提交spark-assembly-1.2.0-hadoop2.4.0

在Spark on Yarn的部署模式中，每次提交application，都会往HDFS中存放一个spark的二进制包，这一方面影响性能，另一方面占用HDFS的存储空间，可以在spark-default.conf文件中添加如下配置，将spark的二进制包告诉Spark，已经上传 spark.yarn.jar hdfs://hadoop.master:8020/spark_lib_j...

2015-02-12 15:58:11 357

空空如也

空空如也