一梦-CSDN博客

原创 A-Star 算法

A-Star算法是一种启发式算法，广泛用于寻找最短路径问题上，如智力游戏问题、路径规划问题、行动规划问题等。 A-Star算法流程： 1) 生成一个只包含开始节点n0的搜索图G，把n0放在一个叫OPEN的列表上。 2) 生成一个列表CLOSED，它的初始值为空。 3) 如果OPEN为空，则失败退出。 4) 选择OPEN上的第一个节点，把它从OPEN中移入CLOSED，称该节点为n

2013-12-07 13:00:50 1330

原创 JAVA解析XML的方法总结

XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便.

2013-10-26 20:17:07 954

原创 QuickSort

快速排序算法描述：快速排序过程： ①定义一个数组array，选择一个基准值key（通常是选第一个元素），定义两个基准指针low,high，初始时，low=0,high=array.length-1,key=array[low], ② 先从右往左比较元素跟key的大小，即high逐次减一，直到找到第一个比key小的元素，交换array[high]与array[low]的值。 ③然

2013-05-11 17:00:02 648

原创 HeapSort

算法描述开始： ①堆排序算法：假设已经建立好了最大堆，将堆顶元素跟最后一个元素交换，然后将堆的长度减1，此时堆可能已经不是最大堆了，所以需要将减1之后的堆变成最大堆，即始终保持待排序的堆是最大堆，直到堆的大小变为1，结束。 ②保持最大堆（递归体）：假设左右子树都是最大堆，比较根元素跟左右孩子的大小，若根元素小于左孩子或者右孩子的大小，调整它们的值，使得根元素最大。调整后，左子树或者右子树已经不

2013-05-11 12:02:06 676

原创 JAVA之栈内存与堆内存

Java把内存分成两种，一种叫做栈内存，一种叫做堆内存在函数中定义的一些基本类型的变量和对象的引用变量都是在函数的栈内存中分配。当在一段代码块中定义一个变量时，java就在栈中为这个变量分配内存空间，当超过变量的作用域后，java会自动释放掉为该变量分配的内存空间，该内存空间可以立刻被另作他用。堆内存用于存放由new创建的对象和数组。在堆中分配的内存，由java虚拟机自动垃圾回收器

2013-04-28 21:19:20 560

转载 HBase集群出现NotServingRegionException问题的排查及解决方法

原文地址：http://blog.linezing.com/2012/11/hbase-how-to-resolve-not-serving-region-exception HBase集群在读写过程中，可能由于Region Split或Region Blance等导致Region的短暂下线，此时客户端与HBase集群进行RPC操作时会抛出NotServingRegionExceptio

2013-03-04 20:46:39 783

转载 HBase解决Region Server Compact过程占用大量网络出口带宽的问题

HBase 0.92版本之后，Region Server的Compact过程根据待合并的文件大小分为small compaction和large compaction两种，由此可能导致在集群写入量大的时候Compact占用过多的网络出口带宽。本文将详细描述集群使用过程中遇到这一问题的排查过程及其解决方法。 1. 发现问题 HBase集群（版本为0.94.0）运行过程中，发现5台Regio

2013-03-04 20:43:11 456

转载 HBase Block Cache实现机制分析

本文结合HBase 0.94.1版本源码，对HBase的Block Cache实现机制进行分析，总结学习其Cache设计的核心思想。 1. 概述 HBase上Regionserver的内存分为两个部分，一部分作为Memstore，主要用来写；另外一部分作为BlockCache，主要用于读。写请求会先写入Memstore，Regionserver会给每个region提供一个Memstor

2013-03-04 20:40:26 370

转载 Hadoop管理员的十个最佳实践

前言接触Hadoop有两年的时间了，期间遇到很多的问题，既有经典的NameNode和JobTracker内存溢出故障，也有HDFS存储小文件问题，既有任务调度问题，也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷（短板），有些则是使用的不当。在解决问题的过程中，有时需要翻源码，有时会向同事、网友请教，遇到复杂问题则会通过mail list向全球各地Had

2013-03-04 20:38:39 398

原创 hadoop,zookeeper,hbase搭建完全分布式集群回忆录

在做hadoop，hbase这方面的工作有一段时间了，经常有刚接触这些东西的身边朋友，向我询问基本环境的搭建问题，于是就想以回忆录的形式把基本配置的步骤整理出来，以便刚接触的朋友做个参考. HBase集群建立在hadoop集群基础之上，所以在搭建HBase集群之前需要把Hadoop集群搭建起来，并且要考虑二者的兼容性.现在就以四台机器为例，搭建一个简单的集群.

2012-12-25 18:08:07 985

原创 Zookeeper的简单应用

首先，Zookeeper是一个高效而可靠地协同工作系统，它用在协调在分布式应用上的各种服务。Zookeeper主要是用来处理类似下面这样的场景问题：消息在网络中的两个节点间传输时，由于网络错误或者其他问题导致传输过程发生错误，则发送方无法得知接受方是否得到完整的传输信息，为了确保消息是否以准确到达，发送方必须再次向接收方发送消息询问，否则无法准确得知自己发送的消息是否准确到达。 Zoo

2012-11-07 14:31:28 670

转载百度、谷歌搜索引擎原理

百度、谷歌搜索引擎原理及新网站应对第一节搜索引擎原理 1、基本概念来源于中文wiki百科的解释：（网络）搜索引擎指自动从互联网搜集信息，经过一定整理以后，提供给用户进行查询的系统。来源于英文wiki百科的解释：Web search engines provide an interface to search for information on the World

2012-09-04 10:41:13 2609

转载基于Hadoop的日志收集框架---Chukwa的源码分析(数据处理)

基于Hadoo的日志收集框架---Chukwa的源码分析(数据处理) 1.工具类、接口简介 (1) Java代码 // 用于对数据进行分类 org.apache.hadoop.chukwa.extraction.demux.DemuxManager // mapreduce程序的map处理接口 org.ap

2012-08-30 20:32:34 1007

原创 nutch开发之初步感言

nutch作为一个功能强大的网路爬虫，既可以在自己网站内进行搜索，也可以在互联网上进行搜索，各自的修改规则不同，侧重点也不同。学习nutch已经有了一段时间了，总想腾出点时间写点东西，直到此时才有勇气打开博客开始码字，不为其他，只为给自己开发学习之路留点痕迹，同时积累点码字经验（O(∩_∩)O）。 nutch搜索可以分为本地local和deploy两大中类型，个人感觉nutch在ha

2012-05-31 18:00:28 578

風泽秀舞