自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 资源 (3)
  • 收藏
  • 关注

原创 正则表达式

教程:http://deerchao.net/tutorials/regex/regex.htm测试工具:http://regexpal.com/

2011-08-15 16:50:38 436

转载 Nutch-0.9源代码:NutchConfiguration类

org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org.apache.had

2011-08-14 17:29:15 540

转载 Nutch-0.9源代码:Crawl类整体分析

Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源代码来

2011-08-12 16:43:02 691

原创 Nutch工作流程

Nutch工作流程:建立初始URL集合分析初始URL集的建立有两种方式:超链接和站长提交。超链接 是指机器人程序根据网页链到其他网页中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超

2011-08-12 16:25:53 1918

转载 浅谈Nutch插件机制(含开发实例)

plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。      为什么nutch要使用这样的plugin系统?        有三个原因:1:可扩展性       通

2011-08-11 16:03:52 924

转载 Nutch插件机制分析

引言Nutch使用的插件机制是其所有功能的核心,所有的扩展功能包括页面分析parse、页面评分scoring、url过滤urlFilter、分词analyzer等搜索引擎的核心功能都是通过插件机制实现的。插件机制的有点有如下几点:可扩展能力(Extensibili

2011-08-11 15:52:14 3731

转载 Map Reduce – the Free Lunch is not over?

微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次

2011-08-11 15:37:05 766

原创 nutch源代码阅读心得

主要类分析:一、 org.apache.nutch.crawl.Injector:     1,注入url.txt    2,url标准化    3,拦截url,进行正则校验(regex-urlfilter.txt)    4,对符URL标准的url进行map

2011-08-11 15:02:58 415

原创 Eclipse之ANT使用

Ant是Java平台下非常棒的批处理命令执行程序,能非常方便地自动完成编译,测试,打包,部署等等一系列任务,大大提高开发效率。如果你现在还没有开始使用Ant,那就要赶快开始学习使用,使自己的开发水平上一个新台阶。  Eclipse中已经集成了Ant,我们可以直接在Ecli

2011-08-11 11:38:49 661

原创 Nutch的安装

1.、http://mirror.vmmatrix.net/apache/lucene/nutch/下载到Nutch的最新版本,将其解压到指定目录中,如笔者是将其解压到D:/nutch-1.2中。    2、测试Nutch命令      在运行Nutch的脚本命令

2011-08-09 19:56:31 494

原创 初识Nutch框架

简介Nutch 是一个使用Java编写的开源的搜索引擎框架,基于开源框架Lucene,是Lucene工程的一个子项目,Lucene为 Nutch 提供了文本索引和搜索的API。何时使用Lucene?何时使用Nutch?如果你不需要抓取数据的话,应该

2011-08-06 15:26:18 1241

转载 使用Cygwin模拟Linux环境安装配置运行基于单机的Hadoop

转自:http://hi.baidu.com/shirdrn/blog/item/b306db828d814aa40cf4d20b.html其实,使用Cygwin模拟Linux环境来运行Hadoop是非常轻松的,只需要简单地配置一下就可以运行基于单机的Hadoop。这里,

2011-08-04 17:23:05 1583

转载 Hadoop-0.12.2源代码:Configuration类

转自:http://hi.baidu.com/shirdrn/blog/item/80638db3118e71afd9335a80.htmlConfiguration类位于org.apache.hadoop.conf包中,是Hadoop文件系统的配置类,用来根据配置文件中指定

2011-08-03 17:30:15 599

原创 Java关键字new和newInstance的区别方法

在初始化一个类,生成一个实例的时候,newInstance()方法和new关键字除了一个是方法,一个是关键字外,最主要有什么区别?       它们的区别在于创建对象的方式不一样,前者是使用类加载机制,后者是创建一个新类。那么为什么会有两种创建对象方式?这主要考虑到软件的可伸

2011-08-03 11:43:50 941 1

转载 技巧:利用 TagSoup 拯救可怕的 HTML

转自:http://www.ibm.com/developerworks/cn/xml/x-tiptagsoup.html 简介: XHTML 对于解析和屏幕擦除是一种足够友好的格式,但是 Web 仍然有很多杂乱的 HTML。在本技巧中,Uche Ogbuji 演示了使用 T

2011-08-03 11:14:09 1860 1

转载 用JAXP解析XML文档

Java有多种方法可以分析XML文档,你可以选择现在已经成熟的标准技术,比如DOM和SAX,或者你可以选择专用于处理XML的Java API (Java API for XML Processing,JAXP)。JAXP是一种专门提供XML文档解析的Java接口,下面我们就来

2011-08-02 10:30:54 637

原创 Linux的一些基本概念

磁盘及分区        设备管理 在 Linux 中,每一个硬件设备都映射到一个系统的文件,对于硬盘、光驱等 IDE 或 SCSI 设备也不例外。 Linux 把各种 IDE 设备分配了一个由 hd 前缀组成的文件;而对于各种 SCSI 设备,则分配了一个由 sd 前缀组成

2011-07-31 13:20:09 535

原创 MD5算法

MD5的全称是Message-Digest Algorithm 5(信息-摘要算法),它的作用是让大容量信息在用数字签名软件签署私人密匙前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的大整数)。      MD5的典型应用是对一段信息(Message)产生信

2011-07-27 14:56:47 419

原创 UTF-8编码

UTF-8编码字节含义对于UTF-8编码中的任意字节B,如果B的第一位为0,则B为ASCII码,并且B独立的表示一个字符;如果B的第一位为1,第二位为0,则B为一个非ASCII字符(该字符由多个字节表示)中的一个字节,并且不为字符的第一个字节编码;如果B的前两位为1,第三位为0,

2011-07-27 14:30:49 706

原创 Linux安装Java+tomcat

下载:首先,从http://java.sun.com中下载jdk,我的版本是jdk1.6.0_26,我下载的是bin文件,将下载的jdk-6u26-linux-i586.bin文件置于/usr/java中安装:然后,在shell中执行:$ sudo chmod u+x /usr/

2011-07-26 17:18:43 1461

原创 sudo

sudo是linux系统管理指令,是允许系统管理员让普通用户执行一些或者全部的root命令的一个工具,如halt,reboot,su等等。这样不仅减少了root用户的登陆 和管理时间,同样也提高了安全性。Sudo不是对shell的一个代替,它是面向每个命令的。它的特性主要有这样几

2011-07-23 16:19:34 819

原创 ubuntu安装FCITX输入法

1.安装好的UBUNTU是英文的,因此最好安装中文语言支持,可在系统管理里面选择“LANGUAGE”,选择“简体中文”;2.确认SCIM被删除,如果之前安装过,可通过SCIM输入法设置中将SCIM中文输入法删除,也可输入“sudo apt-get remove scim”;3.下

2011-07-23 16:07:20 808

原创 ubuntu 配置源

Ubuntu源的重要性 Ubuntu和Debian一样使用Apt高级包管理系统,可以很方便的进行在线安装、升级、卸载。但是Ubuntu和Debian所使用的源(source)是不同的。Ubuntu安装完后,默认使用的可能是国外的源,速度可能比较慢。现在国内也有很多服务器提供国外源

2011-07-23 15:26:34 3106

原创 aptitude

aptitude 是 Debian GNU/Linux 系统中, 非常神奇的的软件包管理器,基于大名鼎鼎的 APT 机制, 整合了 dselect 和 apt-get的所有功能, 并提供的更多特性,特别是在依赖关系处理上。  aptitude与 apt-get 一样,是 Debi

2011-07-22 18:46:13 1747

原创 APT(Advanced Packaging Tool)

简介       是Linux下的一款安装包管理工具。  最初只有.tar.gz的打包文件,用户必须编译每个他想在GNU/Linux上运行的软件。用户们普遍认为系统很有必要提供一种方法来管理这些安装在机器上的软件包,当Debian诞生时,这样一个管理工具也就应运而生,它被命名为d

2011-07-22 18:33:39 2688

原创 Tomcat

安装Tomcat之前要先安装JDK,可从http://java.sun.com上下载最新版本的JDK。       Tomcat可从Apache Jakarta Project站点(http://jakarta.apache.org/site/binindex.cgi)上下载,对

2011-07-21 10:55:17 549

转载 JAVA程序员面试32问,你能回答多少题?

    第一,谈谈final, finally, finalize的区别。     第二,Anonymous Inner Clas* (匿名内部类) 是否可以**tends(继承)其它类,是否可以implements(实现)inte***ce(接口)?    第三,Static Nested Class 和 Inner Class的不同,说得越多越好(面试题有的很笼统)。    第四,

2011-06-15 13:23:00 423

转载 JDK,Tomcat,Apache安装与配置

转自:http://www.cnblogs.com/edisonfeng/archive/2011/06/01/2065308.html1.JDK的安装与配置   JDK安装过程和一般的软件安装相类似,以下主要详细介绍安装之后,环境变量需要的设置:    a)设置path变量       将JDK安装路径下的bin目录添加到path变量中,例如:   C

2011-06-15 13:13:00 507

转载 java–JSP

http://www.cnblogs.com/hangxin1940/archive/2011/06/09/2076355.html

2011-06-15 12:56:00 375

转载 超键 候选键 主键

<br />超键(super key):在关系中能唯一标识元组的属性集称为关系模式的超键<br />候选键(candidate key):不含有多余属性的超键称为候选键<br />主键(primary key):用户选作元组标识的一个候选键程序主键<br /> <br />比如一个小范围的所有人,没有重名的,考虑以下属性<br />身份证 姓名 性别 年龄<br />身份证唯一,所以是一个超键<br />姓名唯一,所以是一个超键<br />(姓名,性别)唯一,所以是一个超键<br />

2011-05-06 02:42:00 1034

转载 关系数据库与范式

<br /><br />基本概念:<br /> <br />关系数据库:就是用二维表来保存数据<br /> <br />实体:现实世界中客观存在并可以被区别的事物。比如“一个学生”、“一本书”、“一门课”等等。值得强调的是这里所说的“事物”不仅仅是看得见摸得着的“东西”,它也可以是虚拟的,不如说“老师与学校的关系”。<br /> <br />属性:教科书上解释为:“实体所具有的某一特性”,由此可见,属性一开始是个逻辑概念,比如说,“性别”是“人”的一个属性。在关系数据库中,属性又是个物理概念,属性可以看作是

2011-04-26 21:05:00 1072 1

转载 Eclipse开发Android应用程序入门

<br />Eclipse开发Android应用程序入门2011年4月7日Neo发表评论阅读评论1,276 次点击    <br />By Chris Blunt<br />翻译:赵锟<br />原文出处:http://www.smashingmagazine.com/2010/10/25/get-started-developing-for-android-with-eclipse/<br />如今的移动设备应用程序开发充满着让人振奋的东西。功能强大的硬件支持,平板电脑,多样的软件平台(塞班 OS,i

2011-04-10 09:56:00 1075

转载 Android 程序调试生成main.out.xml

<br />转:http://www.eoeandroid.com/thread-68083-1-1.html<br />我们大家在开发android的时候,一定会用到调试,这个是检验你编写的代码是否正确,我们最好要有一个好的android编程习惯,就是说,当你写完一部分代码时,你就要调试一下,这样也对你邮好处的。当我们调试的时候修改了一下布局文件layout/main.xml,然后ctrl + F11运行, 结果碰到下面的错误:这个是什么问题那,下面我们就来解决它。我们来看看android系统是怎

2011-04-09 15:02:00 1897

原创 android 学习基础篇---开发环境的搭建 Eclipse SDK jdk ADT

<br /><br />转自:http://hi.baidu.com/caijian5219999/blog/item/6c741ce483b2583ab8382077.html<br />1.环境安装准备 知识扫盲<br />1》jak 1.5 或者jdk 1.6   java开发的编译环境<br />2》eclipse   3.4     java开发的IDE<br />3》Android sdk 3.0  android的编译器 (Software Development Kit, 即软件开发工具包

2011-04-08 19:35:00 1081

原创 java中格式化输出数字

在实际工作中,常常需要设定数字的输出格式,如以百分比的形式输出,或者设定小数位数等,现稍微总结如下。主要使用的类:java.text.DecimalFormat1。实例化对象,可以用如下两种方法:DecimalFormat df=(DecimalFormat)NumberFormat.getInstance();DecimalFormat df1=(DecimalFormat) DecimalFormat.getInstance();因为DecimalFormat继承自NumberFormat。

2011-04-07 15:44:00 1247

原创 3个人分汤问题

<br /> <br />问题:监狱里关着两个罪犯,吃饭时,给一桶汤,两个罪犯分着吃,由于分汤不均,两个人经常打架。后来想处了一个好办法,其中一个人把汤分成两份,然后让另一个人先挑。这样就解决了分配不均的问题。后来监狱里又被关进来一个人,三个人如何分汤才能维持和平呢?<br /> <br /> <br />思考:<br />1.如何使分的人尽量做到平分?<br />方法:分的人后选;(跟两个人分汤的思路一样)<br /> <br />2.若分的人跟另外一个人串通,意图分少的给第三个,之后串通的那两个人再平分

2011-04-02 12:58:00 4983 1

转载 经典笔试题:从十亿个整数中选择前100大整数的算法实现

<br />转自:http://www.cnblogs.com/kanong/archive/2010/10/06/1844490.html<br /> 最近几天都在研究一些面试,笔试题,发现有一种题型很经常出现,如从十亿个整数中选择前100大整数,或者是这类题的变形:<br />很多人看到这种题的第一反应是排序,如果你是这样回答的话,offer肯定是没有了。原因如下:<br />1.  存放10亿个数据的内存得多大呀, 所以内部排序是不可能了!<br />2.  就算采用外部排序的方法,可以解决内存不

2011-04-02 11:42:00 2103

转载 不使用loop和condition打印出1-1000

<br /><br />转自:http://coolshell.cn/articles/3445.html<br />C/C++语言,不允许使用Loop和Condition (一行行输入也不可以), 写一个程序打印出1~1000.<br />方法有很多,我选了俩个人觉得比较有意思的。<br />一、Power of Objects <br />#include <cstdio><br />int cnt;<br />class Num { public: Num() { printf("%d/n", ++c

2011-04-02 10:00:00 722

转载 UML建模(JAVA篇)

转自:http://www.cnblogs.com/riky/archive/2007/04/07/704298.html+++++++++++++++++++++++++++++++++++++++++++++++++++++在UML建模中,对类图上出现元素的理解是至关重要的。开发者必须理解如何将类图上出现的元素转换到Java中。以java为代表结合网上的一些实例,下面是个人一些基本收集与总结: 基本元素符号: 1. 类(Classes)类包含3个组成部分。第一个是Java中定义的类名。第二个是属性(at

2011-03-28 15:50:00 838

转载 UML类图关系全面剖析

转自:http://blog.csdn.net/dylgsy/UML的类图关系分为: 关联、聚合/组合、依赖、泛化(继承)。而其中关联又分为双向关联、单向关联、自身关联;下面就让我们一起来看看这些关系究竟是什么,以及它们的区别在哪里。1、关联双向关联:C1-C2:指双方都知道对方的存在,都可以调用对方的公共属性和方法。在GOF的设计模式书上是这样描述的:虽然在分析阶段这种关系是适用的,但我们觉得它对于描述设计模式内的类关系来说显得太抽象了,因为在设计阶段关联关系必须被映射为对象引用或指针。对象引用本身就是有

2011-03-28 15:35:00 424

Windows可视化编程课件

Windows可视化编程课件,讲得比较详细哈!

2010-07-07

深入淺出 Android -- Google 手持設備應用程式設計入門

这是我看过的最好的Android入门书了!不下会后悔的!

2010-04-07

用c++写的学生管理系统大作业

可以管理学生的学籍和成绩 综合应用学过的知识:递归,链表,文件等 用链表实现类

2009-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除