自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (4)
  • 收藏
  • 关注

原创 Berkeley DB基础教程

一、Berkeley DB的介绍(1)Berkeley DB是一个嵌入式数据库,它适合于管理海量的、简单的数据。如Google使用其来保存账户信息,Heritrix用其来保存froniter.(2)key/value是Berkeley DB用来管理数据的基础,每个key/value对代表一条记录。(3)Berkeley DB在底层实现采用B树,可以看成能够存储大量数据的HashMa

2014-05-29 15:21:08 20715 6

原创 【搜索引擎Jediael开发笔记】v0.1完整代码

本版本完成以下功能:(1)创建用于保存种子URL的配置文件及其数据结构(2)创建用于保存Todo信息(未下载URL)的数据结构(3)创建用于保存Visited信息(已下载的URL)的数据结构(4)下载网页时同步更新Tode与Visited。下载网页前,判断某个网页是否已经下载过。(5)从上述第3步下载的网页抽取链接并继续下载,直到Todo列表为空。(6)为每个种子url创建一个独立的线程。

2014-05-26 15:17:33 1027

原创 【搜索引擎Jediael开发笔记】V0.1完整代码

本版本完成以下功能:(1)创建用于保存种子URL的配置文件及其数据结构(2)创建用于保存Todo信息(未下载URL)的数据结构(3)创建用于保存Visited信息(已下载的URL)的数据结构(4)下载网页时同步更新Tode与Visited。下载网页前,判断某个网页是否已经下载过。(5)从上述第3步下载的网页抽取链接并继续下载,直到Todo列表为空。(6)为每个种子url创建一个独立的线程。

2014-05-26 15:16:18 1095

原创 关于serialVersionUID的说明

1、为什么要使用serialVersionUID(1)对于实现了Serializable接口的类,可以将其序列化输出至磁盘文件中,同时会将其serialVersionUID输出到文件中。(2)然后有需要使用时,再从磁盘将对象内容及serialVersionUID读入内容中的某个对象。(3)将磁盘内容读入对象时,需要进行强制类型转换,如Person person = (Person)oi

2014-05-24 11:02:17 21916 4

原创 String, StringBuilder 与StringBuffer的区别与联系

(1)String构建的对象不能改变,每次对String进行操作时,如两个String相加,需要新建一个String对象,然后容纳最终的结果。 而StringBuilder与StringBuffer构建的对象可以随时在修改其内容,而无需生成新的对象。一般新建一个对象是会生成16个字节的空间,之后根据需要再增加空间。 由于一般新构建一个对象涉及分配内存空间分配、无引用对象过多时的垃圾回收等,因此,对于操作频繁的字符串需使用StringBuilder或StringBuffer

2014-05-24 09:56:21 1235

原创 【搜索引擎基础知识1】搜索引擎基本架构

(一)搜索引擎的开发一般可分为以下三大部分1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个网站的首页其基本架构可参考下图:

2014-05-23 16:00:14 1760

原创 【搜索引擎基础知识2】网络爬虫

通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。     浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页:      1)首先, 客户端程序连接到域名系统

2014-05-23 14:44:38 8731

原创 【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫

详细可参考(1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》(2)【搜索引擎基础知识1】搜索引擎的技术架构 (3)【搜索引擎基础知识2】网络爬虫的介绍1、

2014-05-23 14:07:01 1324

原创 【搜索引擎基础知识3】搜索引擎相关开源项目及网站

部分内容转自:http://blog.csdn.net/hguisu/article/details/8024799一、 开源项目1.Lucene全文检索系统      http://lucene.apache.org和 http://www.lucene.com.cn/      Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代

2014-05-23 11:44:35 2269

原创 HtmlParser基础教程

1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.htmlAPI:http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。2、使

2014-05-22 11:33:45 30739 1

原创 【搜索引擎Jediael开发4】V0.01完整代码

截止目前,已完成如下功能:1、指定某个地址,下载其页面中包含的所有链接指向的网页主要有以下类:1、主类MyCrawler2、网页下载类PageDownloader3、网页内容分类类HtmlParserTool4、接口Filter完整代码可见归档代码 Jediael_v0.01或者https://code.csdn.net/jediael_lu/d

2014-05-21 21:35:00 1122

转载 学习金字塔

学习金字塔是美国缅因州的国家训练实验室研究成果,它用数字形式形象显示了:采用不同的学习方式,学习者在两周以后还能记住内容(平均学习保持率)的多少。它是一种现代学习方式的理论。最早它是由美国学者、著名的学习专家爱德加·戴尔1946年首先发现并提出的。

2014-05-21 09:25:48 1340

原创 【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接

1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.htmlAPI:http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。2、相关知识(1)通过

2014-05-20 20:50:06 7294 2

转载 Java解析HTML之HTMLParser使用与详解

转自http://free0007.iteye.com/blog/1131163HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。    这里我根据自己这几个月来的经验,写了一点入门的东西,希望能对新学习H

2014-05-19 21:46:33 32311

原创 【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件

使用HttpClient进行网络处理的基本步骤如下:1、通过get的方式获取到Response对象。CloseableHttpClient httpClient = HttpClients.createDefault();HttpGet httpGet = new HttpGet("http://www.baidu.com/");CloseableHttpResponse respon

2014-05-19 15:07:24 4866

原创 HttpClient基础教程

1、HttpClient相关的重要资料:官方网站:http://hc.apache.org/API:http://hc.apache.org/httpcomponents-client-4.3.x/httpclient/apidocs/index.htmltutorial: http://hc.apache.org/httpcomponents-client-4.3.x/tutoria

2014-05-18 23:23:06 18378

转载 【搜索引擎基础知识2】网络爬虫的介绍

转自:http://blog.csdn.net/hguisu/article/details/7949844通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。    

2014-05-16 14:10:18 1777

转载 【搜索引擎基础知识1】搜索引擎的技术架构

1. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(Full Text Search Engine)目录索引类搜索引擎(Search Index/Directory)元搜索引擎(Meta Search Engine)。 ■ 全文搜索引擎  全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheW

2014-05-16 14:08:41 3118

原创 JSON之三:获取JSON文本并解释(以google的天气API为例)

google提供了天气的api,以广州天气为例,地址为:http://api.openweathermap.org/data/2.5/weather?q=guangzhou返回的结果为:{    "coord": {        "lon": 113.25,        "lat": 23.12    },    "sys": {        "m

2014-05-14 16:35:53 8907 5

原创 JSON入门之二:org.json的基本用法

java中用于解释json的主流工具有org.json、json-lib与gson,本文介绍org.json的应用。官方文档:http://www.json.org/java/http://developer.android.com/reference/org/json/package-summary.html 1、主要类ClassesJSO

2014-05-14 11:25:56 77496 4

原创 《大型网站技术架构》1:概述

参考自《大型网站技术架构》第1~3章1、大型网站架构演化发展历程(1)初始阶段的网站架构:一台服务器分别作为应用、数据、文件服务器(2)应用服务和数据服务分离:三台服务器分别承担上述三项工作,其中应用服务器要求CPU强大、数据库服务器需求更快的硬盘和内存,文件服务器需要较大的硬盘。(3)使用缓存改善网站性能:分为本地缓存以及缓存在专门的分布式服务器上的远程缓存。(4)使

2014-05-07 20:40:24 1561

转载 Apache+tomcat的整合

为什么要做这个整合呢?当然,首先想到是就是Apache和Tomcat的区别。正因为有区别,有各自的优缺点才需要整合,取二者所长,弃二者所短。Apache和Tomcat都可以在他们的官网下载: http://www.apache.org那么首先就来说下Apache和Tomcat的区别:Apache只是一个Web服务器,可以作为独立的web服务器来运行,不过只支持静

2014-05-07 15:08:17 939

Heritrix developer_manual

Heritrix developer_manual,Heritrix的开发文档

2014-06-01

Heritrix user_manual.pdf

Heritrix user_manual 1.14.4,有时候官网下不了的,先保存下来吧。

2014-06-01

Jediael_v0.1

Jediael_v0.1, basic search engine

2014-05-26

Jediael_v0.01

搜索引擎Jediael的0.01版本 it will be go on

2014-05-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除