自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(280)
  • 资源 (9)
  • 收藏
  • 关注

原创 hbase mlockall

mlockall头文件:#include 函数原型:int mlockall(int flags);flags:      MCL_CURRENT ——Lock all pages which are currently mapped into the address space of the process.      MCL_FUTURE ——— Lock all pa

2013-12-28 22:18:48 1311

原创 Jamon

1.Jamon java 模版引擎 eclipse 插件  http://www.jamon.org/eclipse/updates2.Jamon 官方网站  http://www.jamon.org/3.hbase web  监控界面就是用它做的模版引擎

2013-12-28 22:02:13 792

原创 java 调用JRuby

1.corepackage vanilla;import org.jruby.embed.ScriptingContainer;public class HelloWorld { private HelloWorld() { ScriptingContainer container = new ScriptingContainer();

2013-12-28 21:39:17 1513

原创 hbase thrift 访问队列

public class CallQueue implements BlockingQueue {  private static Log LOG = LogFactory.getLog(CallQueue.class);  private final BlockingQueue underlyingQueue;  private final ThriftMetrics metri

2013-12-28 20:59:32 1051

翻译 hbase thrift 定义

/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements.  See the NOTICE file * distributed with this work for additional information * regardi

2013-12-28 20:40:32 1312

原创 thrift实现HDFS文件操作

thrift 文件如下namespace java com.pera.file.transformstruct  File{    1:string path ,    2:string content,}service FileTransform {    bool exists(1:string path),    void mkdir(1:st

2013-12-16 14:50:42 1201

转载 软件工程师 Book

一、软件工程师 --Clean Code《代码整洁之道》 --Implementation Patterns《实现模式》 --Code Complete《代码大全》 --Refactoring: Improving the Design of Existing Code《重构——改善既有代码的设计》 --Effective Java(第二版) --Head First De

2013-12-12 22:28:39 761

Prefix tree

Prefix treeThe trie, or prefix tree, is a data structure for storing strings or other sequences in a way that allows for a fast look-up. In its simplest form it can be used as a list of keywords or...

2013-12-08 11:38:57 124

Mahout系列----MinHash聚类

Map: Vector featureVector = features.get();    if (featureVector.size() < minVectorSize) {       return;     }     // Initialize the MinHash values to highest     for (int i = 0; i < numH...

2013-12-05 16:01:37 216

转载 mahout系列----Dirichlet 分布

mahout系列----Dirichlet 聚类

2013-12-05 09:47:03 1092

Mahout系列----谱聚类

1.构造亲和矩阵W 2.构造度矩阵D 3.拉普拉斯矩阵L4.计算L矩阵的第二小特征值(谱)对应的特征向量Fiedler 向量5.以Fiedler向量作为kmean聚类的初始中心,用kmeans聚类亲和矩阵 :W_ij=exp(-(d(s_i,s_j)/2o^2))             d(s_i,s_j)  = ||s_i,s_j||.    o 为事先设定的参数。度矩阵...

2013-12-05 09:30:57 165

原创 mahout系列----minhash聚类

mahout系列----minhash聚类

2013-12-05 00:25:19 1347

原创 mahout系列之---谱聚类

mahout谱聚类

2013-12-05 00:05:06 1643

转载 jvm内存查看与分析工具

2.3 JVM的垃圾收集策略 GC的执行时要耗费一定的CPU资源和时间的,因此在JDK1.2以后,JVM引入了分代收集的策略,其中对新生代采用"Mark-Compact"策略,而对老生代采用了“Mark-Sweep"的策略。其中新生代的垃圾收集器命名为“minor gc”,老生代的GC命名为"Full Gc 或者Major GC".其中用System.gc()强制执行的是Full Gc.

2013-12-04 16:10:19 770

转载 JVM内存模型及垃圾收集策略解析

JVM内存模型是Java的核心技术之一,之前51CTO曾为大家介绍过JVM分代垃圾回收策略的基础概念,现在很多编程语言都引入了类似Java JVM的内存模型和垃圾收集器的机制,下面我们将主要针对Java中的JVM内存模型及垃圾收集的具体策略进行综合的分析。一 JVM内存模型1.1 Java栈Java栈是与每一个线程关联的,JVM在创建每一个线程的时候,会分配一定的栈空间给线程。它主要用

2013-12-04 16:07:18 643

原创 CopyOnWriteArrayList

除了加锁外,其实还有一种方式可以防止并发修改异常,这就是将读写分离技术(不是数据库上的)。先回顾一下一个常识:1、JAVA中“=”操作只是将引用和某个对象关联,假如同时有一个线程将引用指向另外一个对象,一个线程获取这个引用指向的对象,那么他们之间不会发生ConcurrentModificationException,他们是在虚拟机层面阻塞的,而且速度非常快,几乎不需要CPU时间。2、J

2013-12-04 15:29:42 686

转载 Herriot

Herriot测试框架是Hadoop-0.21.0及以后版本中新加入的测试框架,它的出现主要是为了尽可能地模拟真实的大规模分布式系统,并且对该系统实现自动化测试。和Hadoop以前的测试框架MiniDFSCluster类似,Herriot也采用了JUnit框架,此外,Herriot还引入了面向切面编程(AOP)技术-AspectJ,实现了代码注入和错误注入,丰富了测试的内容。上图是采用Herr

2013-12-04 01:31:34 959

原创 Prefix tree

Prefix treeThe trie, or prefix tree, is a data structure for storing strings or other sequences in a way that allows for a fast look-up. In its simplest form it can be used as a list of keywords or

2013-12-04 01:10:02 1115

转载 hadoop 测试框架

hadoop 0.21以前的版本中(这里拿0.20为例,其他版本可能有少许不同),所有的测试相关代码都是放置在${HADOOP_HOME}/src/test下,在该目录下,是按照不同的目录来区分针对不同模块的测试代码。这里需要了解的是:对于相应的hadoop代码和class的包结构,在test中也是以相同的包结构来管理。比如,对于org.apache.hadoop.hdfs.server.name

2013-12-04 01:01:50 999

转载 Hadoop RPC

hadoop rpc机制 && 将avro引入hadoop rpc机制初探1 RPCRPC(Remote Procedure Call)——远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。2 hadoop.ipc2.1 ServerRPC Server实现了一种抽象的RPC服务,同时提供Call队列。Ø  RPC Server结构

2013-12-04 00:52:35 729

转载 HFile

HFile存储格式HBase中的所有数据文件都存储在Hadoop HDFS文件系统上,主要包括两种文件类型:1. HFile, HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile2. HLog File,HBase中WAL(Write Ahead Log)

2013-12-04 00:48:00 762

转载 hbase介绍

一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop be

2013-12-04 00:46:26 656

转载 Paxos 算法

1 概述Paxos算法是莱斯利·兰伯特(Leslie Lamport,就是 LaTeX 中的"La",此人现在在微软研究院)于1990年提出的一种基于消息传递的一致性算法。[1] 这个算法被认为是类似算法中最有效的。2写在之前Paxos 算法解决的问题是一个分布式系统如何就某个值(决议)达成一致。一个典型的场景是,在一个分布式数据库系统中,如果各节点的初始状态一致,每个节点都执行相

2013-12-04 00:42:42 814

转载 ZooKeeper leader election

Paxos是分布式应用中解决同步问题的核心。作为应用研发工程师,我们总是倾向于使用一种相对简洁的方式实现复杂的算法。ZooKeeper leader election实现就是一个非常好的参考。其实现比标准Paxos算法简单,基本过程是:1                                                                           

2013-12-04 00:39:14 1127

转载 zookeeper 应用开发

由于zookeeper的client只有zookeeper一个对象,使用也比较简单,所以就不许要文字说明了,在代码中注释下就ok 了。1、测试用的main方法package ClientExample;public class TestMain { public static void main(String[] args) { /* * 测试

2013-12-04 00:09:29 732

转载 ZooKeeper 数据模型

本文主要讲述ZooKeeper的数据模型,包括ZooKeeper的数据视图,节点的层次结构以及节点类型等基本属性。Zookeeper的视图结构类似标准的Unix文件系统,但是没有引入文件系统相关概念:目录和文件,而是使用了自己特有的节点(node)概念,称为znode。Znode是ZooKeeper中数据的最小单元,每个znode上都可以保存数据,同时还可以挂载子节点,也构成了一个层次化的命名空间

2013-12-04 00:07:01 769

转载 zookeeper 原理

zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的Hadoop项目中的一个子项目,并且根据google发表的论文来实现的,接下来我们首先来安装使用下这个软件,然后再来探索下其中比较重要一致性算法。  zookeeper安装和使用zookeeper的安装基本上可以按照 http://hadoop.apache.org/zookeeper/doc

2013-12-04 00:05:45 657

转载 zookeeper 事务日志

前面提到,在zookeeper server的配置文件zoo.cfg中可以通过dataLogDir来配置zookeeper的事务日志的输出目录,这个事务日志类似于下面这样的文件:这个文件是一个二进制文件, 一般不能够直接识别, 那么是否有方法可以把这些事务日志转换成正常日志文件呢, 答案是肯定的~       Zookeeper自带一个工具类:org.apache.zookeepe

2013-12-03 23:51:40 1103

转载 ZooKeeper客户端事件串行化处理

为了提升系统的性能,进一步提高系统的吞吐能力,最近公司很多系统都在进行异步化改造。在异步化改造的过程中,肯定会比以前碰到更多的多线程问题,上周就碰到ZooKeeper客户端异步化过程中的一个死锁问题,这里说明下。通常ZooKeeper对于同一个API,提供了同步和异步两种调用方式。同步接口很容易理解,使用方法如下:12ZooKeeper zk

2013-12-03 23:49:20 778

转载 ZooKeeper 权限管理

这其中一个显而易见的问题就是权限:如果我的数据被别人动了怎么办?方案一:采用ZooKeeper支持的ACL digest方式,用户自己定义节点的权限        这种方案将zookeeper的acl和digest授权认证模式相结合。具体操作流程如下:             可以把这个访问授权过程看作是用户注册,系统给你一个密码,每次操作使用这个用户名(appName)和

2013-12-03 23:47:53 2461

转载 ZooKeeper 会话超时

1、会话概述在ZooKeeper中,客户端和服务端建立连接后,会话随之建立,生成一个全局唯一的会话ID(Session ID)。服务器和客户端之间维持的是一个长连接,在SESSION_TIMEOUT时间内,服务器会确定客户端是否正常连接(客户端会定时向服务器发送heart_beat,服务器重置下次SESSION_TIMEOUT时间)。因此,在正常情况下,Session一直有效,并且ZK集群所有

2013-12-03 23:46:19 3051

转载 ZooKeeper API

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务框架,包含一组简单的原语集合。通过这些原语言的组合使用,能够帮助我们解决更高层次的分布式问题,关于ZooKeeper的典型使用场景,请查看这个文章《ZooKeeper典型使用场景一览》本文主要针对ZooKeeper提供的Java API,通过实际代码讲述如何使用API。package com.taobao.taokeeper

2013-12-03 23:44:44 833

转载 Zookeeper监控

在公司内部,有不少应用已经强依赖zookeeper,zookeeper的工作状态直接影响它们的正常工作。目前开源世界中暂没有一个比较成熟的zookeeper-monitor,于是开始zookeeper监控这块工作。目前zookeeper-monitor能做哪些事情,讲到这个,首先来看看哪些因素对zookeeper正常工作比较大的影响:用于zookeeper写日志的目录要有足够大小,

2013-12-03 23:42:55 857

转载 部署与管理ZooKeepe

1.部署本章节主要讲述如何部署ZooKeeper,包括以下三部分的内容:1. 系统环境2. 集群模式的配置3. 单机模式的配置系统环境和集群模式配置这两节内容大体讲述了如何部署一个能够用于生产环境的ZK集群。如果仅仅是想在单机上将ZK运行起来,进行一些开发与测试,那么第三部分或许是你的菜。1.1系统环境1.1.1平台支持平 台运行clie

2013-12-03 23:40:33 1525

转载 ZooKeeper的快速搭建

本文是ZooKeeper的快速搭建,旨在帮助大家以最快的速度完成一个ZK集群的搭建,以便开展其它工作。本方不包含多余说明及任何调优方面的高级配置。如果要进行更深一层次的配置,请移步《ZooKeeper管理员指南——部署与运维》。  单机模式(7步)Step1:配置JAVA环境。检验方法:执行java –version和javac –version命令。Step2:下载并解压zookee

2013-12-03 23:39:00 801

转载 ZooKeeper典型应用场景

ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍,本文将结合作者身边的项目例子,系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是,ZK并非天生就是为这些应用场景设计的,都是后来众多开发者根据其框架的特性,利

2013-12-03 23:34:39 681

转载 ActiveMQ 入门

1.下载ActiveMQ去官方网站下载:http://activemq.apache.org/2.运行ActiveMQ解压缩apache-activemq-5.5.1-bin.zip,然后双击apache-activemq-5.5.1\bin\activemq.bat运行ActiveMQ程序。启动ActiveMQ以后,登陆:http://localhost:8161/admin/,

2013-12-03 22:29:16 659

转载 thrift入门

目录:概述下载配置基本概念数据类型服务端编码基本步骤客户端编码基本步骤数据传输协议实例演示(java) thrift生成代码 实现接口IfaceTSimpleServer服务模型TThreadPoolServer 服务模型TNonblockingServer 服务模型THsHaServer服务模型异步客户端[一]、概述Thrift是一个软件框

2013-12-03 14:59:34 988

自动抽取新闻网页中的主要内容

  抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。             String  content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#newwindow=1&q=restlet+java.net.socketexception+bro...

2013-11-29 22:26:41 384

原创 抽取网页中的主要内容

抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。

2013-11-29 17:16:02 1105

orange算法大全

orange算法大全

2014-03-12

MongoDB 参考文档

MongoDB 参考文档

2013-03-04

Cassandra权威指南(中文版)

Cassandra权威指南(中文版)

2013-03-04

SQL和NOSQL融合

SQL和NOSQL融合

2013-03-04

统计学习基础:数据挖掘、推理与预测

统计学习基础:数据挖掘、推理与预测

2013-02-28

jfreechart API

jfreechart API 介绍 void setAntiAlias(boolean flag) 字体模糊边界 void setBackgroundImage(Image image) 背景图片 void setBackgroundImageAlignment(int alignment) 背景图片对齐方式(参数常量在org.jfree.ui.Align类中定义) void setBackgroundImageAlpha(float alpha) 背景图片透明度(0.0~1.0) void setBackgroundPaint(Paint paint) 背景色

2010-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除