自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 hbase的ttl

Time To Live (TTL)ColumnFamilies can set a TTL length in seconds, and HBase will automatically delete rows once the expiration time is reached. This applies to all versions of a row - e...

2013-07-02 15:20:06 211

数据仓库之数据质量管理

     公司今年的重点是数据仓库的数据质量建设,这块一直是数据仓库领域一个比较蛋疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量。我想这块将作为我今年的工作重点!!!     这块大家有没有一些经验!我们一起探讨!!...

2013-03-26 13:34:30 472

原创 java 深浅拷贝 clone

完全转载,今天在做一个类似于队列的业务,有一个进程不停的读取,写到容器内,另外一个方法循环的将容器内的数据写入到hdfs上面。本来是可以使用队列的,但是想想,运用list也可以实现,就不整那么麻烦的东西了! 用到了clone的概念!于是找了下,加深下记忆! 13.4.2 浅拷贝和深拷贝在解释什么是浅拷贝什么是深拷贝前,我们先来看个例子,如代码清单13-10所示。代码清1...

2012-12-05 02:02:28 99

原创 oracle hints pq_distribute

   今天遇到一个oracle报表查询优化的问题,需要用hints固定执行join的执行计划,已经有3年没怎么用oracle开发了,当时的优化思路还记得,但是hints怎么用确实是忘记了!搜索到了这篇文章,自己几年前看过的,还是这么有用!! 于是就记录下来,免得自己以后忘记了,在到处找: http://www.remote-dba.net/t_op_sql_query_hint.h...

2012-12-03 11:54:51 338

原创 RHEL 5.5(kernel2.6.18)对NTFS分区的读取支持

    前天转载了一篇也是关于redhat读取ntfs分区数据的文章,本来想照着去试试的,但是文章太长了,自己实在没有耐心看完下去,于是就在网上找了些其他的文章,找到了一个短小精悍,非常简单的方法来搞定这个问题!!哈哈!!本人刚才经过5分钟,搞定了这个问题,现场实验没有问题!!  下面就转载给大家看看。RHEL 5.5(kernel2.6.18)对NTFS分区的读取支持...

2012-12-02 17:54:50 104

原创 linux下mount windows分区【转载】

   今天需要用redhat读取移动硬盘里面ntfs格式的文件,发现还有点麻烦,于是网上找了些资料,看到这个不错,感觉还不错的,就cp下,晚上在按照这个方法操作下试试:   目前网上有很多介绍在linux下mount windows NTFS的文章,说的都是重新编译内核,加入对NTFS分区的支持.但是对于一个刚刚接触linux的新手来说,又是何其痛苦的一件事,我给大家介绍一种简单的方法.1...

2012-11-30 17:08:21 102

heritrix3.1 TLD list unavailable

今天按照上面转载的文档搭建了一下heritirx3.1的环境,基本上还是成功的,可以成功的运行,但是在运行的时候报了一个错误,错误如下: 严重: TLD list unavailablejava.lang.NullPointerException at java.io.Reader.<init>(Reader.java:61) at java.io.Input...

2012-11-29 13:21:15 128

原创 linux修改字符集

   本篇文章是cp的,非本人原创,只是今天突然遇到了一个字符集的问题,搜索了下,于是在这里cp下,方便自己以后好找!!!在这里感谢下原创的作者!!    Linux下修改字符集locale -a 查询系统支持的字符集 export LANG=zh_CN.gbk设定字符集 一般来说要设置 Linux 系统的环境变量只需要在 /etc/profile (全局) 或者 ~/.b...

2012-11-28 16:21:27 107

原创 heritrix自定义爬虫

    heritrix1.14.4 升级到3.1 ,发现改变还是很大的,原来的核心类org.archive.crawler.postprocessor.FrontierScheduler不存在了,org.archive.crawler.extractor.Extractor改变很大,增加了shouldProcess的方法,org.archive.modules.extractor.Lin...

2012-11-28 14:03:30 85

原创 搭建heritrix3.1【转载】

     由于本人正在准备将heritrix1.14升级到3.1 ,觉得这篇文章挺有用的,于是就cp一下,记录下来,非本人所原创,下面是原创的文章:  网上已经有几篇Heritrix 1.14版本的Eclipse搭建的文章,说的比较详细。本人下载了Heritrix 3.1,该版本相对Heritrix 1.14版本变化已经较大,在研究Heritrix零星的几个文档以后终于把环境搭建成功了...

2012-11-27 01:42:33 138

原创 heritrix 如何解决简单的表单验证功能

  目前我的heritrix遇到了很多信息需要表单验证,我看基本上中文的资料非常少,我从网上找了这些英文资料,是解决在heritrix的使用过程中,如何解决简单的表单验证的功能!!! 链接如下:https://webarchive.jira.com/wiki/display/Heritrix/RFC2617+%28BASIC+and+DIGEST+Auth%29  后续我会...

2012-11-27 00:41:17 70

庆祝下开博客了!

   非常惭愧!在it行业工作了将近6年,没开过博客!没写过什么东西!!!   从06年开始进入计算机行业,非常的偶然,自己从前从来没想过会从事这个行业!大学一直到毕业最后一年,本人连系统都不会安装!鬼使神差的进入了计算机行业!发掘了下自己的潜力!目前在互联网行业里混口饭吃,主要从事数据仓库,分布式计算,大数据数据处理方面的工作,今年开始,开始使用了流式计算storm!!做一些简单的实时数据流...

2012-11-26 23:53:41 81

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除