- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 用Java 处理 XML 数据
看起来这是个常规性的动作。不知道什么时候你就需要用JAVA处理一下XML。虽说现在用XML作为媒体进行数据交换不是那么有效率(你可以试着Google “为啥不用XML” 之类的了解了解),不过鉴于很多古板的系统只能支持长胡子的技术实现,所以这方面也要照顾一下退休人士。了解背景会让你聊天的时候显得牛一些。Java原生内置的处理XML的技术基本有这么几种:DOM,SAX,Stax
2014-01-13 10:34:03 5935 2
原创 Oracle 的数据批量读取
有这么一个大表假设数亿条记录,纯数据文本百Gb以上,批量读取的话咋整?SQLLoader,算是一个选择吧。嗯,开并行,数据表本身也许已经partition过了。可是如果自己批量unload数据应该怎么做呢?多线程并行是个好主意,但是怎么并行呢?如果你在想什么数字主键均分的想法,那你也许不会有好的结果。原因,主键的值域范围不一定是均匀分布的,这会造成你某些工作线程很忙,有些却草草结束了。深层次的
2014-01-07 10:53:10 2924
原创 Hive console log output 控制台输出日志
没啥说的记录一下:hive -hiveconf hive.root.logger=DEBUG,console
2014-01-06 17:28:19 6528
原创 Data compression on Hbase will make your mapreduce job fly
如果你需要在HBase的数据上做MapReduce任务,记得打开压缩选项。IO speed is always performance bottleneck in any case. So focus on IO performance generally is best practice for performance tuning.Data compression
2014-01-06 17:25:38 646
原创 Expands disk volume on Linux 扩展虚拟的逻辑磁盘空间
1. 先看看有多少物理磁盘供你使用sudo fdisk -l一般会得到下面的信息:Disk /dev/sdb: 107.4 GB, 107374182400 bytes...Disk /dev/sdc: 107.4 GB, 107374182400 bytes...Disk /dev/sdd: 107.4 GB, 107374182400 bytes2. 初始化这些磁盘
2014-01-06 17:19:23 678
原创 Hadoop cannot find namenode pid file when shutdown
By default settings Hadoop use /tmp/ folder to track NameNode and JobTracker process id alive. But /tmp folder is cleanup once a week. So after some time, you will get error when you try to shutdown H
2014-01-06 16:24:25 1504
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人