2014年01月_软猫克鲁

01月

原创用Java 处理 XML 数据

看起来这是个常规性的动作。不知道什么时候你就需要用JAVA处理一下XML。虽说现在用XML作为媒体进行数据交换不是那么有效率（你可以试着Google “为啥不用XML” 之类的了解了解），不过鉴于很多古板的系统只能支持长胡子的技术实现，所以这方面也要照顾一下退休人士。了解背景会让你聊天的时候显得牛一些。Java原生内置的处理XML的技术基本有这么几种：DOM，SAX，Stax

2014-01-13 10:34:03 5935 2

原创 Oracle 的数据批量读取

有这么一个大表假设数亿条记录，纯数据文本百Gb以上，批量读取的话咋整？SQLLoader，算是一个选择吧。嗯，开并行，数据表本身也许已经partition过了。可是如果自己批量unload数据应该怎么做呢？多线程并行是个好主意，但是怎么并行呢？如果你在想什么数字主键均分的想法，那你也许不会有好的结果。原因，主键的值域范围不一定是均匀分布的，这会造成你某些工作线程很忙，有些却草草结束了。深层次的

2014-01-07 10:53:10 2924

原创 Hive console log output 控制台输出日志

没啥说的记录一下：hive -hiveconf hive.root.logger=DEBUG,console

2014-01-06 17:28:19 6528

原创 Data compression on Hbase will make your mapreduce job fly

如果你需要在HBase的数据上做MapReduce任务，记得打开压缩选项。IO speed is always performance bottleneck in any case. So focus on IO performance generally is best practice for performance tuning.Data compression

2014-01-06 17:25:38 646

原创 Expands disk volume on Linux 扩展虚拟的逻辑磁盘空间

1. 先看看有多少物理磁盘供你使用sudo fdisk -l一般会得到下面的信息：Disk /dev/sdb: 107.4 GB, 107374182400 bytes...Disk /dev/sdc: 107.4 GB, 107374182400 bytes...Disk /dev/sdd: 107.4 GB, 107374182400 bytes2. 初始化这些磁盘

2014-01-06 17:19:23 678

原创 Hadoop cannot find namenode pid file when shutdown

By default settings Hadoop use /tmp/ folder to track NameNode and JobTracker process id alive. But /tmp folder is cleanup once a week. So after some time, you will get error when you try to shutdown H

2014-01-06 16:24:25 1504

BetterSP2.exe

绿色健康版，调整XP系统的最大网络连接数。

2010-03-08

硝烟中的Scrum和XP.pdf

硝烟中的Scrum和XP.pdf Scrum 的实践。