自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (4)
  • 收藏
  • 关注

原创 hadoop集群中的日志文件

hadoop存在多种日志文件,其中master上的日志文件记录全面信息,包括slave上的jobtracker与datanode也会将错误信息写到master中。而slave中的日志主要记录完成的task任务信息。 默认情况下,hadoop日志保存在HADOOP_INSTALL/logs目录,但一般情况下建议重新指定路径,常用的是/var/log/hadoop,通过在hadoop-env.sh中

2015-02-28 20:37:28 17173

原创 Nutch的日志系统

一、Nutch日志实现方式 1、Nutch使用slf4j作为日志接口,使用log4j作为具体实现。关于二者的基础,请参考 http://blog.csdn.net/jediael_lu/article/details/43854571 http://blog.csdn.net/jediael_lu/article/details/43865571 2、在java类文件中,通过以

2015-02-17 20:14:49 1894

原创 log4j配置文件及nutch中的日志配置

使用slf4j作为日志系统时,由于slf4j只是一个接口,它需要一个具体实现来执行。 由于slf4j统一了API接口,因此,若log4j实现来日志输出,则只需要设置配置文件的内容即可,以下是nutch中默认的log4j.properties。 # Define some default values that can be overridden by system properties had

2015-02-17 10:58:33 4103

原创 slf4j教程

http://www.cnblogs.com/xing901022/p/4149524.html 首先八卦一下这个日志家族的成员,下面这张图虽然没有包含全部的内容,但是基本也涵盖了日志系统的基本内容,不管怎么说,先记住下面这张图:   通过上面的图,可以简单的理清关系!   commons-logging和slf4j都是日志的接口,供用户使用,而没有提供实现!

2015-02-16 20:36:01 12287

原创 Java中的日期操作

在日志中常用的记录当前时间及程序运行时长的方法: public void inject(Path urlDir) throws Exception { SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); long start = System.currentTimeMillis();

2015-02-16 17:55:28 77997 3

原创 Avro基础

一、Avro的基本功能 1、定义了数据模式文件的语法,一般使用json文件。以及一些数据基本类型与复杂类型。 2、定义了数据序列化到文件后的数据格式,此格式可供各种语言进行读取。 3、为部分语言定义了序列化文件的读取API,如JAVA等。 4、扩展了hadoop的基本mapreduce,提供了用于使用Avro作为输出框架的mapreduce API。 二、Gora中的avro

2015-02-14 19:56:37 1012

原创 【JAVA编码专题】总结

第一部分:编码基础 为什么需要编码:用计算机看得懂的语言(二进制数)表示各种各样的字符。 一、基本概念 ASCII、Unicode、big5、GBK等为字符集,它们只定义了这个字符集内有哪些字符,以及分别用什么数字表示。 而UTF-8与UTF-16则定义了Unicode字符集如何使用计算机看得懂的语言进行传输和保存。 例如: Unicode 字符 U+00A9 = 1010 10

2015-02-11 15:11:40 1066

转载 【JAVA编码专题】深入分析 Java 中的中文编码问题

http://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/ 几种常见的编码格式 为什么要编码 不知道大家有没有想过一个问题,那就是为什么要编码?我们能不能不编码?要回答这个问题必须要回到计算机是如何表示我们人类能够理解的符号的,这些符号也就是我们人类使用的语言。由于人类的语言有太多,因而表示这些语言的符号太多,无法用计算机中

2015-02-10 21:09:38 1015

转载 【JAVA编码专题】UNICODE,GBK,UTF-8区别

简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转

2015-02-10 21:07:28 3113

转载 【JAVA编码专题】 JAVA字符编码系列三:Java应用中的编码问题

这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。 为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问题,特别是乱码问题,我觉得组成一个系列来描述和分析更好一些,包括三篇文章: 第一篇:JAVA字符编码系列一:Unicode,GBK,GB2312,UTF-8概念基础 第二篇:JAVA字符编码

2015-02-10 21:05:55 882

转载 【JAVA编码】 JAVA字符编码系列二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换

http://blog.csdn.net/qinysong/article/details/1179489 这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。 为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问题,特别是乱码问题,我觉得组成一个系列来描述和分析更好一些,包括三篇文章: 第

2015-02-10 21:03:03 1002

转载 【JAVA编码专题】JAVA字符编码系列一:Unicode,GBK,GB2312,UTF-8概念基础

http://blog.csdn.net/qinysong/article/details/1179480 这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。 为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问题,特别是乱码问题,我觉得组成一个系列来描述和分析更好一些,包括三篇文章: 第

2015-02-10 21:01:32 1285

原创 读取Webpage表中的内容

nutch将从网页中抓取到的信息放入hbase数据库中,默认情况下表名为$crawlId_webpage,但表中的内容以16进制进行表示,直接scan或者通过Java API进行读取均只能读取到16进制信息。     因此nutch提供了readdb选项进行数据获取,将表中的内容读取到一个文本中。  具体用法为: $ bin/nutch readdb Usage: WebTableRea

2015-02-10 14:59:29 1558

转载 各种排序算法的分析及java实现

转载自:http://www.cnblogs.com/liuling/p/2013-7-24-01.html 另可参考:http://gengning938.blog.163.com/blog/static/128225381201141121326346/   排序大的分类可以分为两种:内排序和外排序。在排序过程中,全部记录存放在内存,则称为内排序,如果排序过程中需要使用外存,则称为外排

2015-02-03 20:09:29 881

原创 运行一个Hadoop Job所需要指定的属性

1、设置job的基础属性 Job job = new Job(); job.setJarByClass(***.class); job.setJobName(“job name”); job.setNumReduce(2); 2、设置Map与Reudce的类 job.setMappgerClass(*.class); job.setReduceClass(*.class); 3、设置Job

2015-02-02 21:33:40 6707

原创 Hbase常见异常

1、 HBase is able to connect to ZooKeeper but the connection closes immediately hbase(main):001:0> list TABLE                                                                            ERROR:

2015-02-02 16:16:03 3059

Heritrix developer_manual

Heritrix developer_manual,Heritrix的开发文档

2014-06-01

Heritrix user_manual.pdf

Heritrix user_manual 1.14.4,有时候官网下不了的,先保存下来吧。

2014-06-01

Jediael_v0.1

Jediael_v0.1, basic search engine

2014-05-26

Jediael_v0.01

搜索引擎Jediael的0.01版本 it will be go on

2014-05-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除