自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 Spark Streaming和Flume集成指南V1.4.1

Spark Streaming和Flume集成指南V1.4.1 Apache Flume是一个用来有效地收集,聚集和移动大量日志数据的分布式的,有效的服务。这里我们解释一下怎样配置Flume和Spark Streaming来从Flume获取数据。这里有两个方法。 Python API:Fl...

2016-02-29 16:50:09 462 0

转载 Java 性能优化之 String 篇

Java 性能优化之 String 篇 String 方法用于文本分析及大量字符串处理时会对内存性能造成不可低估的影响。我们在一个大文本数据分析的项目中(我们统计一个约 300MB 的 csv 文件中所有单词出现的次数)发现,用于存放结果的 Collection 占用了几百兆的内...

2016-02-28 19:05:43 1634 0

转载 一个Java对象到底占多大内存?

一个Java对象到底占多大内存? 2015/02/05 | 分类: 基础技术 | 1 条评论 | 标签: 对象 分享到:15 原文出处: cnblogs-zhanjindong 最近在读《深入理解Java虚拟机》,对Java对象的内存布局有了进一步的认识...

2016-02-28 18:29:16 2747 2

转载 浅谈Spark应用程序的性能调优

原文  http://www.iteye.com/news/31303 Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。 ...

2016-02-28 17:19:24 2691 0

转载 Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend

Spark Runtime里的主要层次分析,梳理Runtime组件和执行流程, DAGScheduler Job=多个stage,Stage=多个同种task, Task分为ShuffleMapTask和ResultTask,Dependency分为ShuffleDependency和Narro...

2016-02-27 11:56:15 387 0

转载 Spark&Spark性能调优实战

Spark特别适用于多次操作特定的数据,分mem-only和mem & disk。其中mem-only:效率高,但占用大量的内存,成本很高;mem & disk:内存用完后,会自动向磁盘迁移,解决了内存不足的问题,却带来了数据的置换的消费。Spark常见的调优工具有nman、J...

2016-02-27 11:42:08 1132 0

转载 Spark Streaming 图片处理案例介绍

Spark Streaming 图片处理案例介绍本文首先介绍了流式处理框架的设计原理、Spark Streaming 的工作原理,然后通过一个基于 Spark Streaming 编写的读取、分析、写入图片的示例帮助读者加深了解 Spark Streaming 的工作原理。12 评论:周 明耀, ...

2016-02-26 20:46:51 873 0

转载 Spark Streaming和Flume集成指南V1.4.1

Apache Flume是一个用来有效地收集,聚集和移动大量日志数据的分布式的,可获得的服务。这里我们解释一下怎样配置Flume和Spark Streaming来从Flume获取数据。 这里有两个方法。 python API:Flume现在还不支持PythonAPI   方法1:Flume...

2016-02-26 20:42:11 956 0

转载 Jps介绍以及解决jps无法查看某个已经启动的java进程问题

Jps介绍以及解决jps无法查看某个已经启动的java进程问题 博客分类: 性能及调优LinuxJava   对于jps较熟悉可以直接查看第二部分的分析   1、jps的作用 jps类似linux的ps命令,不同的是ps是用来显示进程,而jps只显示java进程,...

2016-02-24 13:58:30 9547 1

转载 JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解

博客分类: 知识积累 Javajvm调优jvm  摘要 JDK本身提供了很多方便的JVM性能调优监控工具,除了集成式的VisualVM和jConsole外,还有jps、jstack、jmap、jhat、jstat、hprof等小巧的工具,本博客希望能起抛砖引玉之用,让大家能开始对JVM性能...

2016-02-23 17:06:55 843 0

转载 kafka监控

kafka监控 kafka-web-console https://github.com/claudemamo/kafka-web-console 部署sbt: http://www.scala-sbt.org/0.13/tutorial/Manual-Inst...

2016-02-22 13:50:24 1864 0

转载 Kafka 安装和测试

1. 简介 kafka (官网地址:http://kafka.apache.org)是一款分布式消息发布和订阅的系统,具有高性能和高吞吐率。 i. 消息的发布(publish)称作producer,消息的订阅(subscribe)称作consumer,中间的存储阵列称...

2016-02-22 11:01:44 1046 0

转载 Spark源码阅读环境搭建[Windows版]

近期要开始阅读Spark的源码了,董的博客里的 这篇文章 已经把大致的环境搭建思路说得很清楚了。不过由于我没有专用的Linux工作机,在VM里开IDE阅读代码不仅对我8GB内存的小本是种摧残,对我的精神更是种折磨,于是开始琢磨怎么在Windows下配置这个环境。 其实那篇博文...

2016-02-21 11:05:05 1455 1

转载 ZooKeeper管理员指南——部署与管理ZooKeeper

大数据系列零基础由入门到实战视频 本帖最后由 pig2 于 2014-4-16 10:34 编辑 问题导读 ZooKeeper Server需要的jdk版本是哪个? ZooKeeper集群配置是否必须奇数,奇数的好处是什么? 关于myid文件my...

2016-02-19 17:10:33 1608 0

转载 Spark技术内幕:Master基于ZooKeeper的High Availability(HA)源码实现

目录(?)[+] Master的重启策略集群启动参数的配置CuratorFramework简介 ZooKeeperLeaderElectionAgent的实现设计理念 如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master...

2016-02-17 13:29:37 658 0

转载 Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend

Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend 标签:spark   runtime   源码分析    Spark Runtime里的主要层次分析,梳理Runtime组件和执行流程, ...

2016-02-16 20:42:23 441 0

转载 【论文笔记】SparkNET: 用Spark训练深度神经网络

【论文笔记】SparkNET: 用Spark训练深度神经网络 标签: 深度学习机器学习spark神经网络 2015-12-27 23:00 1368人阅读 评论(0) 收藏 举报  分类: 【机器学习&深度学习】(9) 【Spark-Python-机器学习】(3)  版权...

2016-02-16 12:25:43 3454 0

转载 Spark动态资源分配-Dynamic Resource Allocation

Spark动态资源分配-Dynamic Resource Allocation  Spark  lxw1234@qq.com  2个月前 (12-31)  1429℃  2评论 关键字:spark、资源分配、dynamic resource allocation Spark中,所谓...

2016-02-16 12:23:23 7041 0

转载 Spark UI (基于Yarn) 分析与定制

这篇文章的主旨在于让你了解Spark UI体系,并且能够让你有能力对UI进行一些定制化增强。在分析过程中,你也会深深的感受到Scala语言的魅力。 前言 有时候我们希望能对Spark UI进行一些定制化增强。并且我们希望尽可能不更改Spark的源码。为了达到此目标,我们会从如下三个方面...

2016-02-16 12:21:13 648 0

转载 Spark Tungsten-sort Based Shuffle 分析

Tungsten-sort 算不得一个全新的shuffle 方案,它在特定场景下基于类似现有的Sort Based Shuffle处理流程,对内存/CPU/Cache使用做了非常大的优化。带来高效的同时,也就限定了自己的使用场景。如果Tungsten-sort 发现自己无法处理,则会自动使用 So...

2016-02-16 12:18:08 1348 0

转载 基于Hadoop的大数据平台实施记——整体架构设计

大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影《云图》—...

2016-02-16 08:24:55 6998 2

转载 Spark技术内幕:Shuffle的性能调优

Spark技术内幕:Shuffle的性能调优 目录(?)[+] 通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管...

2016-02-14 17:40:26 962 0

转载 利用MapReduce求海量数据中最大的K个数

利用MapReduce求海量数据中最大的K个数   [java] view plain copy package jtlyuan.csdn;   import java.io.IOException;   import org.apache.hadoop.conf.Conf...

2016-02-14 13:53:54 3185 1

转载 Spark分区器HashPartitioner和RangePartitioner代码详解

在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。   我们需要注意的是,只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区...

2016-02-13 17:30:54 4236 0

转载 scala中的this.type

自从开始看scala的Parser相关的源码以来,我越来越觉得scala中很多处理方法就像是用黑魔法在与编译器打交道。不变成JVM上的c++誓不罢休? 看Programming in Scala 源码 33.6 Scala代码   abstract class Parser[+T]...

2016-02-11 16:48:23 2159 0

转载 Java中Runnable和Thread的区别

在java中可有两种方式实现多线程,一种是继承Thread类,一种是实现Runnable接口;Thread类是在java.lang包中定义的。一个类只要继承了Thread类同时覆写了本类中的run()方法就可以实现多线程操作了,但是一个类只能继承一个父类,这是此方法的局限。 下面看例子: ...

2016-02-10 18:16:48 322 0

转载 探寻从HDFS到Spark的高效数据通道:以小文件输入为案例

探寻从HDFS到Spark的高效数据通道:以小文件输入为案例 作者 尹绪森 发布于 2014年4月11日 | 分享到: 微博 微信 Facebook Twitter 有道云笔记 邮件分享 稍后阅读 我的阅读清单 为了保证高效的数据移动,locali...

2016-02-07 16:45:47 1633 0

转载 Spark Core 问题详解

Spark Core 问题详解 时间 2015-11-17 13:00:00  IBM developerWorks中国 原文  http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-core/index.html?ca...

2016-02-07 16:40:31 2366 0

转载 深入了解spark运行计划及调优

问题导读 1.首次运行hive-console需要什么条件? 2.运行hive/console是否需要启动Spark? 3.如何查看查询的Unresolved LogicalPlan? 4.如何查看不同查询的运行计划? 5.SparkSQL如何调优? 1.1  ...

2016-02-07 16:30:20 2281 0

转载 Hadoop作业JVM堆优化汇总及JVM复用

Hadoop作业JVM堆优化汇总及JVM复用  [复制链接]     电梯直达 楼主  发表于 2014-4-27 20:49:55 | 只看该作者 |只看大图  大数据系列零基础由入门到实战视频 本帖最后由 pig2...

2016-02-07 06:59:16 2324 0

转载 深入理解JVM性能调优

深入理解JVM性能调优 您的评价:        收藏该经验         在上文中我们分析了很多性能监控工具,介绍这些工具的目的只有一个,那就是找出对应的性能瓶颈。盲目的性能调优是没有效果的,只有充分知道了...

2016-02-07 06:55:08 7691 1

转载 JVM 优化经验总结

JVM 优化经验总结 时间 2015-06-25 12:00:00  IBM developerWorks中国 原文  http://www.ibm.com/developerworks/cn/java/j-lo-jvm-optimize-experience/index.html?c...

2016-02-07 06:50:41 2242 0

转载 Java四种线程池的使用

Java通过Executors提供四种线程池,分别为: newCachedThreadPool创建一个可缓存线程池,如果线程池长度超过处理需要,可灵活回收空闲线程,若无可回收,则新建线程。 newFixedThreadPool 创建一个定长线程池,可控制线程最大并发数,超出的线程会在队列中等待...

2016-02-06 12:19:33 363 0

转载 Java线程池架构原理和源码解析(ThreadPoolExecutor)

Java线程池架构原理和源码解析(ThreadPoolExecutor) 标签: java线程池ExecutorsThreadPoolExecutor生产者消费者java多线程 2013-03-25 20:18 11682人阅读 评论(34) 收藏 举报  分类:   JAVA应用开发(...

2016-02-06 11:27:33 2349 0

转载 java自带线程池和队列详细讲解

java自带线程池和队列详细讲解 3月19日,深圳源创会火热报名中,go>>>»   Java线程池使用说明 一简介 线程的使用在java中占有极其重要的地位,在jdk1.4极其之前的jdk版本中,关于线程池的使用是极其简陋的。在jdk1.5之后这一情况有...

2016-02-06 11:13:33 1491 1

转载 发布&订阅的消息系统 Kafka的深度解析

发布&订阅的消息系统 Kafka的深度解析 2015-01-27 10:25 Jason Guo Jason Guo的博客 字号:T | T 一个典型的kafka集群中包含若干producer(可以是web前端产生的page view,或者是服务器日志,系统...

2016-02-05 15:41:21 8559 0

转载 kafka2.9.2的分布式集群安装和demo(java api)测试

问题导读 1、什么是kafka? 2、kafka的官方网站在哪里? 3、在哪里下载?需要哪些组件的支持? 4、如何安装?   一、什么是kafka?   kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量...

2016-02-05 15:24:22 3571 1

转载 Java NIO原理 图文分析及代码实现

Java NIO原理 图文分析及代码实现 java NIO原理阻塞I/O非阻塞I/O                                                         Java NIO原理图文分析及代码实现 前言: 最近在分析ha...

2016-02-05 08:43:21 380 0

转载 为什么越来越多的公司在使用Spark Streaming

为什么越来越多的公司在使用Spark Streaming 作者 孙镜涛 发布于 2016年1月4日 | 分享到: 微博 微信 Facebook Twitter 有道云笔记 邮件分享 稍后阅读我的阅读清单 Databricks最近对140...

2016-02-04 19:52:30 2189 0

转载 Spark 随机森林算法原理、源码分析及案例实战

Spark 随机森林算法原理、源码分析及案例实战 时间 2015-10-20 12:00:00 IBM developerWorks中国 原文  http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-random-fores...

2016-02-03 20:09:05 4337 0

提示
确定要删除当前文章?
取消 删除