2012年02月_bruce_wang_janet

12月 11月 10月 09月 08月 07月 06月 05月 04月 02月 01月

原创 web server 容器 tomcat和jetty的奇怪联系

tomcat 是一个tom “猫”，不言而喻就是《猫和老鼠》中那个笨猫，而另一个主角就是老鼠了，名称为jerry，无独有偶，具有一个款非常不错的web server容器---jetyy。tomcat和jetty开源团队应该都受影响于《猫和老鼠》

2012-02-26 10:00:08 707

原创 hadoop的安全模式

1.概念During start up Namenode loads the filesystem state from fsimage and edits log file. It then waits for datanodes to report their blocks so that it does not prematurely start replicating th

2012-02-21 20:33:59 1548

转载 hadoop动态增加 datanode和tasktracker的方法

有的时候， datanode或者tasktracker crash，或者需要向集群中增加新的机器时又不能重启集群。下面方法也许对你有用。1.把新机器的增加到conf/slaves文件中（datanode或者tasktracker crash则可跳过） 2.在新机器上进入hadoop安装目录 $bin/hadoop-daemon.sh start datanode $bi

2012-02-21 20:14:47 847

转载 hadoop 调优1

Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释：The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解：一个tasktracker最多可以同时运行的map任务数量默认值：2 优化值：map

2012-02-21 20:11:29 3268

转载 hadoop 自定义文件记录划分

1. 整个文件一个记录系统默认的LineRecordReader是按照每行的偏移量做为map输出时的key值，每行的内容作为map的value值，默认的分隔符是回车和换行。现在要更改map对应的输入的值，key对应的文件的路径（或者是文件名），value对应的是文件的内容（content）。那么我们需要重写InputFormat和RecordReader，因为RecordReade

2012-02-18 21:25:16 890

原创 perl 随机值，取整数方法

perl -e "print int(rand(40))"

2012-02-14 22:47:52 3715

转载 what hadoop good at

说白点就是适合真的非常大的数据量，并且数据本身是稳定的，查询的结果不要求太快。数据驱动编程模型是将数据喂给不同的处理单元(带有相同或不同的执行逻辑). 运行是被数据的到达触发。因为处理只能访问分给它的数据，因为数据共享天然被禁止了，就因为这样，所以没有必须进行协调数据的访问了，也就没有死锁等问题。这不意味着一点也不需要数据访问协调，我们认为协调已经完成：定义处理单元是

2012-02-13 20:54:10 696

转载 hadoop 文件划分，map执行浅析

在执行一个Job的时候，Hadoop会将输入数据划分成N个Split，然后启动相应的N个Map程序来分别处理它们。数据如何划分？Split如何调度（如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上）？划分后的数据又如何读取？这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发：1、运行mapred程序；2、本次运行将生成一

2012-02-13 20:33:33 4960 2

原创 HDFS java api接口测试demo

1. 创建mapreduce工程，设置hadoop home2. 创建HDFSUtil 类package Bruce.Hadoop.HDFSManger;import java.util.Iterator;import java.util.Map.Entry;import org.apache.hadoop.conf.Configuration;import org.

2012-02-12 01:19:23 3385

原创解决安全模式问题 “hadoop Cannot create directory Name node is in safe mode.”

1. 安全模式理解2. 离开安全模式方法 bin/hadoop dfsadmin -safemode leave3. 若不处理安全模式的话，web服务无法启动，dfsadmin report结果异常

2012-02-12 01:08:47 6666

原创解决namenode启动 **dfs/name is in an inconsistent state的问题

1. 主要是没有设置 namenode和datanode 的缺省路径造成的。如果将Hadoop配置成伪分布模式，则Hadoop会将各种信息存入\tmp目录中，所以当系统重启之后，这些信息会丢失，使得用户不得不重新执行hadoop namenode -format命令。为了避免这种情况，可以在hdfs-site.xml文件中添加一个属性，属性名为dfs.name.dir，值为你想存的目录，只要不

2012-02-12 01:00:30 2107

转载 Cassandra 入门

https://www.ibm.com/developerworks/cn/opensource/os-cn-cassandra/

2012-02-11 23:42:43 511

1.Jetty 是一个用 Java 实现、开源、基于标准的，并且具有丰富功能的 Http 服务器和 Web 容器，可以免费的用于商业行为。Jetty 这个项目成立于 1995 年，现在已经有非常多的成功产品基于 Jetty，比如 Apache Geromino， JBoss， IBM Tivoli， Cisco SESM 等。Jetty 可以用来作为一个传统的 Web 服务器，也可以作为一个动态的

2012-02-11 23:40:34 2319

原创 ubuntu 虚拟机网络设置

1.一个桥接的，用于外网权限2. 一个NAT的用于主机访问，因为brige模式的ip经常变化。采用 VMWARE NETWORK ADAPTER VMNET 8来实现的。

2012-02-11 00:06:43 646

原创 hadoop 0.20.2 datanode注册有延迟

启动后，立即查询发现 datanode个数为0，等几分钟后，个数就正确了。why？

2012-02-10 23:43:54 578

原创 sed -i 在linux上的应用

将当前目录下的全部文件中的 192.168.1.104 替换为192.168.100.3方法如下：sed -i "s#1.104#100.3#" *

2012-02-10 20:56:17 618

转载 ubuntu修订机器名称

1.启用root用户运行命令 sudo passwd root 为root用户设置密码2.以root用户身份登录 1）编辑文件/etc/hosts 将下面的一行 127.0.1.1 xxxxx 替换为 127.0.1.1 newhostname 2) 编辑 /etc/hostn

2012-02-10 20:38:08 1080 3

原创 Qlive和Hbase选择

待整理

2012-02-08 23:29:10 498

转载 hadoop-扫盲篇

一、Hadoop是什么？答：是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。 hadoop的核心主要包含：HDFS和MapReduce HDFS是分布式文件系统，用于分布式存储海量数据。 MapReduce是分布式数据处理模型，本质是并行处理。二、多少数据算海量数据？答：个人认为，TB（1

2012-02-08 22:19:47 696

原创 hadoop ubuntu 单机版部署记

下面是1.1.0 release版本的singlealone安装情况 1. 安装1.1 官方网站http://hadoop.apache.org，下载hadoop-1.10.tar.gz1.2 解压缩： tar zxvf hadoop-1.10.tar.gz /home/hadoop 1.4修订 /home/hadoop/hadoop-1.1.0/conf/ha

2012-02-08 00:12:31 741

原创 Valgrind 的使用，找出linux的内存泄露和内存越界。

1. 下载代码www.valgrind.org/valgrind 3.7.0 (tar.bz2)2. 安装 tar jxf *.tar.bz2 make sudo make install ubuntu 上要安装 sudo apt-get install libc6-dbg 才行3. 内存泄露诊断编写代码 Virt.cpp#inc

2012-02-07 20:32:57 2470 1

转载 ps top 内存字段解释

rss RSS resident set size, the non-swapped physical memory that a task has used (in kiloBytes). (alias rssize, rsz).vsz VSZ virtual memory size of the

2012-02-06 23:00:06 696

转载 ps和top命令中的进程占用内存字段解释

rss RSS resident set size, the non-swapped physical memory that a task has used (in kiloBytes). (alias rssize, rsz).vsz VSZ virtual memory size of the

2012-02-06 22:49:01 960

原创 winows 版本的grep工具-WindowsGrep23介绍

很好用和linux使用一样dir |grep out2.txtgrep session out2.txt在out2.TXT中查找以session.结尾的行grep -r+ session.$ out2.txt

2012-02-01 19:31:57 1345

原创 ORACLE 空间维护

1. drop表后，要执行如下语句，否则会留在垃圾堆中。 execute immediate 'purge recyclebin'; 或者drop table XXX purge 删除分区后，自己就会回收空间。2. 数据表空间设置为AUTOEXTEND后，会逐步表变大的，不会自动缩小了。需要执行如下命令，ALTER DATABASE DATAFILE

2012-02-01 19:17:01 506