2016年02月_javastart

转载 Spark Streaming和Flume集成指南V1.4.1

Spark Streaming和Flume集成指南V1.4.1Apache Flume是一个用来有效地收集，聚集和移动大量日志数据的分布式的，有效的服务。这里我们解释一下怎样配置Flume和Spark Streaming来从Flume获取数据。这里有两个方法。Python API：Flume现在还不支持PythonAPI 方法1：Flume风格的推方法

2016-02-29 16:50:09 558

转载 Java 性能优化之 String 篇

Java 性能优化之 String 篇String 方法用于文本分析及大量字符串处理时会对内存性能造成不可低估的影响。我们在一个大文本数据分析的项目中（我们统计一个约 300MB 的 csv 文件中所有单词出现的次数）发现，用于存放结果的 Collection 占用了几百兆的内存，远远超出唯一单词总数 20000 个。本文将通过分析 String 在 JVM 中的存储结构，以

2016-02-28 19:05:43 1966

转载一个Java对象到底占多大内存？

一个Java对象到底占多大内存？2015/02/05 | 分类：基础技术 | 1 条评论 | 标签：对象分享到：15原文出处： cnblogs-zhanjindong最近在读《深入理解Java虚拟机》，对Java对象的内存布局有了进一步的认识，于是脑子里自然而然就有一个很普通的问题，就是一个Java对象到底占用多大内存？在网上搜到了一

2016-02-28 18:29:16 3652 2

转载浅谈Spark应用程序的性能调优

原文 http://www.iteye.com/news/31303Spark是基于内存的分布式计算引擎，以处理的高效和稳定著称。然而在实际的应用开发过程中，开发者还是会遇到种种问题，其中一大类就是和性能相关。在本文中，笔者将结合自身实践，谈谈如何尽可能地提高应用程序性能。分布式计算引擎在调优方面有四个主要关注方向，分别是CPU、内存、网络开销和I/O，其具体调优目标如下

2016-02-28 17:19:24 2789

转载 Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend

Spark Runtime里的主要层次分析，梳理Runtime组件和执行流程，DAGSchedulerJob=多个stage，Stage=多个同种task, Task分为ShuffleMapTask和ResultTask，Dependency分为ShuffleDependency和NarrowDependency面向stage的切分，切分依据为宽依赖维护waiting jobs

2016-02-27 11:56:15 459

转载 Spark&Spark性能调优实战

Spark特别适用于多次操作特定的数据，分mem-only和mem & disk。其中mem-only:效率高，但占用大量的内存，成本很高;mem & disk:内存用完后，会自动向磁盘迁移，解决了内存不足的问题，却带来了数据的置换的消费。Spark常见的调优工具有nman、Jmeter和Jprofile,以下是Spark调优的一个实例分析：1、场景：精确客户群对一个容量为30

2016-02-27 11:42:08 1467

转载 Spark Streaming 图片处理案例介绍

Spark Streaming 图片处理案例介绍本文首先介绍了流式处理框架的设计原理、Spark Streaming 的工作原理，然后通过一个基于 Spark Streaming 编写的读取、分析、写入图片的示例帮助读者加深了解 Spark Streaming 的工作原理。12 评论：周明耀, 技术带头人、项目经理, HikVision关闭 [x]技术狂热爱好者、自由撰稿人，2004 年毕业于浙

2016-02-26 20:46:51 1087

转载 Spark Streaming和Flume集成指南V1.4.1

Apache Flume是一个用来有效地收集，聚集和移动大量日志数据的分布式的，可获得的服务。这里我们解释一下怎样配置Flume和Spark Streaming来从Flume获取数据。这里有两个方法。python API：Flume现在还不支持PythonAPI 方法1：Flume风格的推方法Flume被设计用来在Flume代理之间推送数据。在这种方法中，Spark Strea

2016-02-26 20:42:11 1099

转载 Jps介绍以及解决jps无法查看某个已经启动的java进程问题

Jps介绍以及解决jps无法查看某个已经启动的java进程问题博客分类：性能及调优LinuxJava 对于jps较熟悉可以直接查看第二部分的分析 1、jps的作用jps类似linux的ps命令，不同的是ps是用来显示进程，而jps只显示java进程，准确的说是当前用户已启动的部分java进程信息，信息包括进程号和简短的进程command。 2

2016-02-24 13:58:30 11406 1

转载 JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解

博客分类：知识积累Javajvm调优jvm 摘要 JDK本身提供了很多方便的JVM性能调优监控工具，除了集成式的VisualVM和jConsole外，还有jps、jstack、jmap、jhat、jstat、hprof等小巧的工具，本博客希望能起抛砖引玉之用，让大家能开始对JVM性能调优的常用工具有所了解。现实企业级Java开发中，有时候我们会

2016-02-23 17:06:55 945

转载 kafka监控

kafka监控kafka-web-consolehttps://github.com/claudemamo/kafka-web-console部署sbt：http://www.scala-sbt.org/0.13/tutorial/Manual-Installation.htmlhttp://www.scala-sbt.org/release/t

2016-02-22 13:50:24 2058

转载 Kafka 安装和测试

1. 简介 kafka （官网地址：http://kafka.apache.org）是一款分布式消息发布和订阅的系统，具有高性能和高吞吐率。i. 消息的发布（publish）称作producer，消息的订阅（subscribe）称作consumer，中间的存储阵列称作broker。 ii. 多个broker协同合作，producer、consumer和bro

2016-02-22 11:01:44 1195

转载 Spark源码阅读环境搭建[Windows版]

近期要开始阅读Spark的源码了，董的博客里的这篇文章已经把大致的环境搭建思路说得很清楚了。不过由于我没有专用的Linux工作机，在VM里开IDE阅读代码不仅对我8GB内存的小本是种摧残，对我的精神更是种折磨，于是开始琢磨怎么在Windows下配置这个环境。其实那篇博文已经比较老了（注意到那个发布时间是2014年），不仅Spark有了飞越，Scala同样也是，版本问

2016-02-21 11:05:05 1593 1

转载 ZooKeeper管理员指南——部署与管理ZooKeeper

大数据系列零基础由入门到实战视频本帖最后由 pig2 于 2014-4-16 10:34 编辑问题导读ZooKeeper Server需要的jdk版本是哪个？ZooKeeper集群配置是否必须奇数，奇数的好处是什么？关于myid文件myid代表什么？ZK是否有程序日志？ZK日志级别都是什么？ZK监控有几种方法？加载数据出

2016-02-19 17:10:33 1776

转载 Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

目录(?)[+]Master的重启策略集群启动参数的配置CuratorFramework简介ZooKeeperLeaderElectionAgent的实现设计理念如果Spark的部署方式选择Standalone，一个采用Master/Slaves的典型架构，那么Master是有SPOF（单点故障，Single Point of Failure）。Spark可以选用ZooKe

2016-02-17 13:29:37 736

转载 Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend

Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend标签：spark runtime 源码分析 Spark Runtime里的主要层次分析，梳理Runtime组件和执行流程，DAGSchedulerJob=多个stage，Stage=多个同种task,

2016-02-16 20:42:23 531

转载【论文笔记】SparkNET: 用Spark训练深度神经网络

2016-02-16 12:25:43 3665

转载 Spark动态资源分配-Dynamic Resource Allocation

Spark动态资源分配-Dynamic Resource Allocation Spark lxw1234@qq.com 2个月前 (12-31) 1429℃ 2评论关键字：spark、资源分配、dynamic resource allocationSpark中，所谓资源单位一般指的是executors，和Yarn中的Containers一样，在Spark On Ya

2016-02-16 12:23:23 7277

转载 Spark UI (基于Yarn) 分析与定制

这篇文章的主旨在于让你了解Spark UI体系，并且能够让你有能力对UI进行一些定制化增强。在分析过程中，你也会深深的感受到Scala语言的魅力。前言有时候我们希望能对Spark UI进行一些定制化增强。并且我们希望尽可能不更改Spark的源码。为了达到此目标，我们会从如下三个方面进行阐述：理解Spark UI的处理流程现有Executors页面分析自己编写一个HelloW

2016-02-16 12:21:13 829

转载 Spark Tungsten-sort Based Shuffle 分析

Tungsten-sort 算不得一个全新的shuffle 方案，它在特定场景下基于类似现有的Sort Based Shuffle处理流程，对内存/CPU/Cache使用做了非常大的优化。带来高效的同时，也就限定了自己的使用场景。如果Tungsten-sort 发现自己无法处理，则会自动使用 Sort Based Shuffle进行处理。前言看这篇文章前，建议你先简单看看Spark

2016-02-16 12:18:08 1486

大数据的热度在持续的升温，继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的组织，至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代！关于到底什么是大数据，说真的，到目前为止就和云计算一样，让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面，但是您至少要保

2016-02-16 08:24:55 7890 2

转载 Spark技术内幕：Shuffle的性能调优

Spark技术内幕：Shuffle的性能调优目录(?)[+]通过上面的架构和源码实现的分析，不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此，在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义，由于这些参数的确是非常重要，这里算是做一个详细的总结。1.

2016-02-14 17:40:26 1097

转载利用MapReduce求海量数据中最大的K个数

利用MapReduce求海量数据中最大的K个数 [java] view plain copypackage jtlyuan.csdn; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.ha

2016-02-14 13:53:54 3652 1

转载 Spark分区器HashPartitioner和RangePartitioner代码详解

在Spark中分区器直接决定了RDD中分区的个数；也决定了RDD中每条数据经过Shuffle过程属于哪个分区；也决定了Reduce的个数。这三点看起来是不同的方面的，但其深层的含义是一致的。　　我们需要注意的是，只有Key-Value类型的RDD才有分区的，非Key-Value类型的RDD分区的值是None的。　　在Spark中，存在两类分区函数：HashPartitioner和R

2016-02-13 17:30:54 5103

转载 scala中的this.type

自从开始看scala的Parser相关的源码以来，我越来越觉得scala中很多处理方法就像是用黑魔法在与编译器打交道。不变成JVM上的c++誓不罢休？看Programming in Scala 源码 33.6Scala代码 abstract class Parser[+T] ... { p => ... def ~ [U](q: =>

2016-02-11 16:48:23 2933

转载 Java中Runnable和Thread的区别

在java中可有两种方式实现多线程，一种是继承Thread类，一种是实现Runnable接口；Thread类是在java.lang包中定义的。一个类只要继承了Thread类同时覆写了本类中的run()方法就可以实现多线程操作了，但是一个类只能继承一个父类，这是此方法的局限。下面看例子：package org.thread.demo; class MyThread extends Th

2016-02-10 18:16:48 403

转载探寻从HDFS到Spark的高效数据通道：以小文件输入为案例

探寻从HDFS到Spark的高效数据通道：以小文件输入为案例作者尹绪森发布于 2014年4月11日 |分享到：微博微信 Facebook Twitter 有道云笔记邮件分享稍后阅读我的阅读清单为了保证高效的数据移动，locality是大数据栈以及分布式应用程序所必须保证的性质，这一点在Spark中尤为明显。如果数据集大到不能保证

2016-02-07 16:45:47 1839

转载 Spark Core 问题详解

Spark Core 问题详解时间 2015-11-17 13:00:00 IBM developerWorks中国原文 http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-core/index.html?ca=drs-主题 Spark背景介绍Apache Spark 是加州大学

2016-02-07 16:40:31 2626

转载深入了解spark运行计划及调优

问题导读1.首次运行hive-console需要什么条件？2.运行hive/console是否需要启动Spark？3.如何查看查询的Unresolved LogicalPlan？4.如何查看不同查询的运行计划？5.SparkSQL如何调优？1.1 运行环境说明1.1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线

2016-02-07 16:30:20 2467

转载 Hadoop作业JVM堆优化汇总及JVM复用

Hadoop作业JVM堆优化汇总及JVM复用 [复制链接] 电梯直达楼主发表于 2014-4-27 20:49:55 | 只看该作者 |只看大图大数据系列零基础由入门到实战视频本帖最后由 pig2 于

2016-02-07 06:59:16 2831

转载深入理解JVM性能调优

深入理解JVM性能调优您的评价: 收藏该经验在上文中我们分析了很多性能监控工具，介绍这些工具的目的只有一个，那就是找出对应的性能瓶颈。盲目的性能调优是没有效果的，只有充分知道了哪里出了问题，针对性的结果才是立竿见影的。解决了主要的性能问题，那些次要的性能问题也就不足为虑了！我们

2016-02-07 06:55:08 8091 1

转载 JVM 优化经验总结

JVM 优化经验总结时间 2015-06-25 12:00:00 IBM developerWorks中国原文 http://www.ibm.com/developerworks/cn/java/j-lo-jvm-optimize-experience/index.html?ca=drs-主题 JVM开始之前Java 虚拟机有自己完善的硬件架构,

2016-02-07 06:50:41 2351

转载 Java四种线程池的使用

Java通过Executors提供四种线程池，分别为：newCachedThreadPool创建一个可缓存线程池，如果线程池长度超过处理需要，可灵活回收空闲线程，若无可回收，则新建线程。newFixedThreadPool 创建一个定长线程池，可控制线程最大并发数，超出的线程会在队列中等待。newScheduledThreadPool 创建一个定长线程池，支持定时及周期性任务执行。

2016-02-06 12:19:33 458

转载 Java线程池架构原理和源码解析(ThreadPoolExecutor)

Java线程池架构原理和源码解析(ThreadPoolExecutor)标签： java线程池ExecutorsThreadPoolExecutor生产者消费者java多线程2013-03-25 20:18 11682人阅读评论(34) 收藏举报分类： JAVA应用开发（40） java零碎知识点（19）综合设计（34） java使用小技巧（2

2016-02-06 11:27:33 2493

转载 java自带线程池和队列详细讲解

java自带线程池和队列详细讲解3月19日，深圳源创会火热报名中，go>>>» Java线程池使用说明一简介线程的使用在java中占有极其重要的地位，在jdk1.4极其之前的jdk版本中，关于线程池的使用是极其简陋的。在jdk1.5之后这一情况有了很大的改观。Jdk1.5之后加入了java.util.concurrent包，这个包中主要介绍java中线程以及线程池

2016-02-06 11:13:33 1660 1

转载发布&订阅的消息系统 Kafka的深度解析

发布&订阅的消息系统 Kafka的深度解析2015-01-27 10:25 Jason Guo Jason Guo的博客字号：T | T一个典型的kafka集群中包含若干producer（可以是web前端产生的page view，或者是服务器日志，系统CPU、memory等），若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高）

2016-02-05 15:41:21 8989

转载 kafka2.9.2的分布式集群安装和demo(java api)测试

问题导读1、什么是kafka?2、kafka的官方网站在哪里？3、在哪里下载？需要哪些组件的支持？4、如何安装？　　一、什么是kafka?　　kafka是LinkedIn开发并开源的一个分布式MQ系统，现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式（能将消息分散到不同的节点上）MQ。Kafka仅仅由7000行Scal

2016-02-05 15:24:22 4113 1

转载 Java NIO原理图文分析及代码实现

Java NIO原理图文分析及代码实现java NIO原理阻塞I/O非阻塞I/O Java NIO原理图文分析及代码实现前言:最近在分析hadoop的RPC(Remote Procedure Call Protocol ，远程过程调用协议，它

2016-02-05 08:43:21 454

转载为什么越来越多的公司在使用Spark Streaming

为什么越来越多的公司在使用Spark Streaming作者孙镜涛发布于 2016年1月4日 | 分享到：微博微信 Facebook Twitter 有道云笔记邮件分享稍后阅读我的阅读清单Databricks最近对1400多家Spark用户进行了一次调查，结果显示这些用户对Spark Streaming的使用率与2014

2016-02-04 19:52:30 2784

转载 Spark 随机森林算法原理、源码分析及案例实战

Spark 随机森林算法原理、源码分析及案例实战时间 2015-10-20 12:00:00 IBM developerWorks中国原文 http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-random-forest/index.html?ca=drs-主题算法决策树源码分析

2016-02-03 20:09:05 5155

2007年下半年系统分析师下午试卷Ⅱ.doc

2007年下半年系统分析师下午试卷Ⅰ.doc

2007年下半年系统分析师上午试卷.doc

2007年下半年系统分析师考试试题分析.doc

空空如也