2014年05月_Java海洋

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Hadoop集群三种作业调度算法

Hadoop集群中有三种作业调度算法，分别为FIFO，公平调度算法和计算能力调度算法先来先服务（FIFO）Hadoop中默认的调度器FIFO，它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业。FIFO比较简单，hadoop中只有一个作业队列，被提交的作业按照先后顺序在作业队列中排队，新来的作业插入到队尾。一个作业运行完后，总是从队首取下一个作业运行。这种调度策略的优点是简

2014-05-29 10:14:51 4735

对于处理大数据的组织来说这意味着什么？意味着你拥有的数据越多，对数据的保护就越重要。意味着不仅要安全有效地控制离开自有网络的数据，还必须做好网络内部的数据访问控制。依据数据的敏感程度，我们可能要确保数据分析师能看到的数据是可以让他们分析的数据，并且必须明白发布这些数据及其分析结果可能产生的后果。仅Netflix数据泄漏一个案例就足以表明，即使已经试图对数据做了“匿名化”处理，也可能会发布一些意料之

2014-05-28 16:55:16 6611

转载监控组合ganglia和nagio安装步骤

本帖最后由 pig2 于 2014-5-20 09:39 编辑Ganglia是伯克利开发的一个集群监控软件。可以监视和显示集群中的节点的各种状态信息，比如如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，同时可以将历史数据以曲线方式通过php页面呈现。而ganglia又依赖于一个web服务器用来显示集群状态，用rrdtool来存储数据和生成曲线图，需要xml解析因此需要e

2014-05-27 18:05:02 2750

原创 HDSF主要节点讲解(二)工作原理

hadoop数据写入和读之原理分析

2014-05-27 17:14:50 2099

原创 HDFS主要节点讲解(一)节点功能

简单明了的介绍下HDFS几个节点

2014-05-27 16:08:59 8474

原创一个服务器部署多个tomcat出现端口占用问题

如果服务器已经有部署tomcat，则要修改server.xml中的端口，tomcat默认都是8005，还有这里，要把原来8009修改成别的

2014-05-23 11:01:29 1223

转载 HDFS之Qurom Journal Manager（QJM）实现机制分析

1.前言1.1背景自从hadoop2版本开始，社区引入了NameNode高可用方案。NameNode主从节点间需要同步操作日志来达到主从节点元数据一致。最初业界均通过NFS来实现日志同步，大家之所以选择NFS，一方面因为可以很方便地实现数据共享，另外一方面因为NFS已经发展20多年，已经相对稳定成熟。虽然如此，NFS也有缺点不能满足HDFS的在线存储业务：网络单点及其存

2014-05-08 21:45:05 3545

原创 java中静态方法和动态方法的本质区别

1.静态方法在程序初始化后会一直贮存在内存中，不会被垃圾回收器回收，非静态方法只在该类初始化后贮存在内存中，当该类调用完毕后会被垃圾回收器收集释放。

2014-05-08 16:11:16 12869

原创 JAVA垃圾收集机制剖析

1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别，如果对象正在被引用，那么称其为存活对象，反之，如果对象不再被

2014-05-08 16:04:00 1539

转载养成好的JAVA编码习惯

最近的机器内存又爆满了，除了新增机器内存外，还应该好好review一下我们的代码，有很多代码编写过于随意化，这些不好的习惯或对程序语言的不了解是应该好好打压打压了。下面是参考网络资源总结的一些在Java编程中尽可能要做到的一些地方。1. 尽量在合适的场合使用单例使用单例可以减轻加载的负担，缩短加载的时间，提高加载的效率，但并不是所有地方都适用于

2014-05-07 17:14:41 2105

转载 Eclipse查看hadoop源代码出现Source not found

在我们hadoop编程中，经常遇到像看看hadoop的某个类中函数的功能。但是我们会遇到一种情况就是Source not found。遇到这个问题，该如何解决。因为我们已经引入了包，为什么会找不到。如果不了解怎么引入的可以参考：hadoop开发方式总结及操作指导http://www.aboutyun.com/thread-6950-1-1.html看到上面现象，是因为我们每天添加.

2014-05-07 15:27:00 4129 5

转载 LINUX集群搭建必备：nat模式设置静态ip，达到上网与主机相互通信

网上资料很多，但是都不怎么实用，这里给大家总结一下。nat模式上网。因为nat本身就能上网为什么还要设置ip。这有点自找麻烦。但是在集群这是必须的。要么你搭建伪分布，要么至少具有三台物理机器。为了节省成本，一般会选择伪分布。伪分布也有选择，三种模式那种方式比较合适。1.桥接，这种方式对于大多数来说比较简单。只要设置一下ip，dns，网关等，主机和虚拟机之间关系不是很大。但是如果是p

2014-05-07 14:50:14 7404

原创 hadoop函数说明图

2014-05-06 16:57:20 1839

转载 JAVA中的事务

通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状态。隔离性表

2014-05-05 14:00:28 1177

转载 JAVA中锁机制synchronized

一段synchronized的代码被一个线程执行之前，他要先拿到执行这段代码的权限，在java里边就是拿到某个同步对象的锁（一个对象只有一把锁）；如果这个时候同步对象的锁被其他线程拿走了，他（这个线程）就只能等了（线程阻塞在锁池等待队列中）。取到锁后，他就开始执行同步代码(被synchronized修饰的代码）；线程执行完同步代码后马上就把锁还给同步对象，其他在锁池中等待的某个线程就可以拿到锁

2014-05-05 13:59:17 1069

原创 JAVA中堆和栈的区别

先了解具体的概念：JAVA的JVM的内存可分为3个区：堆(heap)、栈(stack)和方法区(method)堆区:1.存储的全部是对象，每个对象都包含一个与之对应的class的信息。(class的目的是得到操作指令)。2.jvm只有一个堆区(heap)被所有线程共享，堆中不存放基本类型和对象引用，只存放对象本身。栈区:1.每个线程包含一个栈区，栈中只保存基础数

2014-05-04 11:06:38 949

转载举例讲解JAVA中的堆和栈

Java中堆和堆栈的区别 1. 栈(stack)与堆(heap)都是Java用来在Ram中存放数据的地方。与C++不同，Java自动管理栈和堆，程序员不能直接地设置栈或堆。（降低内存或者说是程序方面的内存泄露等问题出现的几率？）2. 栈的优势是，存取速度比堆要快，仅次于直接位于CPU中的寄存器。但缺点是，存在栈中的数据大小与生存期必须是确定的，缺乏灵活性。另外，

2014-05-03 22:20:56 2159

原创查询数据库锁和程序未释放的连接

SELECT /*+ rule*/ B.INST_ID, A.EVENT, C.SID, B.SPID, C.MACHINE, C.SECONDS_IN_WAIT, 'kill -9 ' || B.SPID, 'alter system kill session '''||C.SID||','||C.SERIAL#||''';', E.OBJECT_NAME,

2014-05-03 22:03:38 6646

转载如何编写高效的代码

概述随着Java的广泛应用，越来越多的关键企业系统也使用Java构建。作为Java核心运行环境的Java虚拟机JVM被广泛地部署在各种系统平台上。对Java应用的性能优化也越来越受到关注；谈到Java应用的性能问题就不得不涉及到两个方面：一是Java应用的构造是否是最优化的；二是对JVM的微调。本文将从一般意义上对Java性能的优化做一些总结。Java性能优化的策略一谈到性能优化，往往

2014-05-03 14:22:03 2391

原创 java常用的四种数据库连接池

C3P0是一个开放源代码的JDBC连接池，它在lib目录中与Hibernate一起发布,包括了实现jdbc3和jdbc2扩展规范说明的Connection 和Statement 池的DataSources 对象。　　BoneCP 是一个开源的快速的 JDBC 连接池。BoneCP很小，只有四十几K(运行时需要log4j和Google Collections的支持，这二者加起来就不小了)

2014-05-03 12:25:44 14076 3