- 博客(12)
- 收藏
- 关注
原创 hbase的ttl
Time To Live (TTL)ColumnFamilies can set a TTL length in seconds, and HBase will automatically delete rows once the expiration time is reached. This applies to all versions of a row - e...
2013-07-02 15:20:06 246
数据仓库之数据质量管理
公司今年的重点是数据仓库的数据质量建设,这块一直是数据仓库领域一个比较蛋疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量。我想这块将作为我今年的工作重点!!! 这块大家有没有一些经验!我们一起探讨!!...
2013-03-26 13:34:30 486
原创 java 深浅拷贝 clone
完全转载,今天在做一个类似于队列的业务,有一个进程不停的读取,写到容器内,另外一个方法循环的将容器内的数据写入到hdfs上面。本来是可以使用队列的,但是想想,运用list也可以实现,就不整那么麻烦的东西了! 用到了clone的概念!于是找了下,加深下记忆! 13.4.2 浅拷贝和深拷贝在解释什么是浅拷贝什么是深拷贝前,我们先来看个例子,如代码清单13-10所示。代码清1...
2012-12-05 02:02:28 131
原创 oracle hints pq_distribute
今天遇到一个oracle报表查询优化的问题,需要用hints固定执行join的执行计划,已经有3年没怎么用oracle开发了,当时的优化思路还记得,但是hints怎么用确实是忘记了!搜索到了这篇文章,自己几年前看过的,还是这么有用!! 于是就记录下来,免得自己以后忘记了,在到处找: http://www.remote-dba.net/t_op_sql_query_hint.h...
2012-12-03 11:54:51 373
原创 RHEL 5.5(kernel2.6.18)对NTFS分区的读取支持
前天转载了一篇也是关于redhat读取ntfs分区数据的文章,本来想照着去试试的,但是文章太长了,自己实在没有耐心看完下去,于是就在网上找了些其他的文章,找到了一个短小精悍,非常简单的方法来搞定这个问题!!哈哈!!本人刚才经过5分钟,搞定了这个问题,现场实验没有问题!! 下面就转载给大家看看。RHEL 5.5(kernel2.6.18)对NTFS分区的读取支持...
2012-12-02 17:54:50 119
原创 linux下mount windows分区【转载】
今天需要用redhat读取移动硬盘里面ntfs格式的文件,发现还有点麻烦,于是网上找了些资料,看到这个不错,感觉还不错的,就cp下,晚上在按照这个方法操作下试试: 目前网上有很多介绍在linux下mount windows NTFS的文章,说的都是重新编译内核,加入对NTFS分区的支持.但是对于一个刚刚接触linux的新手来说,又是何其痛苦的一件事,我给大家介绍一种简单的方法.1...
2012-11-30 17:08:21 119
heritrix3.1 TLD list unavailable
今天按照上面转载的文档搭建了一下heritirx3.1的环境,基本上还是成功的,可以成功的运行,但是在运行的时候报了一个错误,错误如下: 严重: TLD list unavailablejava.lang.NullPointerException at java.io.Reader.<init>(Reader.java:61) at java.io.Input...
2012-11-29 13:21:15 145
原创 linux修改字符集
本篇文章是cp的,非本人原创,只是今天突然遇到了一个字符集的问题,搜索了下,于是在这里cp下,方便自己以后好找!!!在这里感谢下原创的作者!! Linux下修改字符集locale -a 查询系统支持的字符集 export LANG=zh_CN.gbk设定字符集 一般来说要设置 Linux 系统的环境变量只需要在 /etc/profile (全局) 或者 ~/.b...
2012-11-28 16:21:27 123
原创 heritrix自定义爬虫
heritrix1.14.4 升级到3.1 ,发现改变还是很大的,原来的核心类org.archive.crawler.postprocessor.FrontierScheduler不存在了,org.archive.crawler.extractor.Extractor改变很大,增加了shouldProcess的方法,org.archive.modules.extractor.Lin...
2012-11-28 14:03:30 102
原创 搭建heritrix3.1【转载】
由于本人正在准备将heritrix1.14升级到3.1 ,觉得这篇文章挺有用的,于是就cp一下,记录下来,非本人所原创,下面是原创的文章: 网上已经有几篇Heritrix 1.14版本的Eclipse搭建的文章,说的比较详细。本人下载了Heritrix 3.1,该版本相对Heritrix 1.14版本变化已经较大,在研究Heritrix零星的几个文档以后终于把环境搭建成功了...
2012-11-27 01:42:33 157
原创 heritrix 如何解决简单的表单验证功能
目前我的heritrix遇到了很多信息需要表单验证,我看基本上中文的资料非常少,我从网上找了这些英文资料,是解决在heritrix的使用过程中,如何解决简单的表单验证的功能!!! 链接如下:https://webarchive.jira.com/wiki/display/Heritrix/RFC2617+%28BASIC+and+DIGEST+Auth%29 后续我会...
2012-11-27 00:41:17 87
庆祝下开博客了!
非常惭愧!在it行业工作了将近6年,没开过博客!没写过什么东西!!! 从06年开始进入计算机行业,非常的偶然,自己从前从来没想过会从事这个行业!大学一直到毕业最后一年,本人连系统都不会安装!鬼使神差的进入了计算机行业!发掘了下自己的潜力!目前在互联网行业里混口饭吃,主要从事数据仓库,分布式计算,大数据数据处理方面的工作,今年开始,开始使用了流式计算storm!!做一些简单的实时数据流...
2012-11-26 23:53:41 95
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人