2014年05月_jediael_lu

原创 Berkeley DB基础教程

一、Berkeley DB的介绍（1）Berkeley DB是一个嵌入式数据库，它适合于管理海量的、简单的数据。如Google使用其来保存账户信息，Heritrix用其来保存froniter.（2）key/value是Berkeley DB用来管理数据的基础，每个key/value对代表一条记录。（3）Berkeley DB在底层实现采用B树，可以看成能够存储大量数据的HashMa

2014-05-29 15:21:08 20716 6

原创【搜索引擎Jediael开发笔记】v0.1完整代码

本版本完成以下功能：（1）创建用于保存种子URL的配置文件及其数据结构（2）创建用于保存Todo信息（未下载URL）的数据结构（3）创建用于保存Visited信息（已下载的URL）的数据结构（4）下载网页时同步更新Tode与Visited。下载网页前，判断某个网页是否已经下载过。（5）从上述第3步下载的网页抽取链接并继续下载，直到Todo列表为空。（6）为每个种子url创建一个独立的线程。

2014-05-26 15:17:33 1027

原创【搜索引擎Jediael开发笔记】V0.1完整代码

本版本完成以下功能：（1）创建用于保存种子URL的配置文件及其数据结构（2）创建用于保存Todo信息（未下载URL）的数据结构（3）创建用于保存Visited信息（已下载的URL）的数据结构（4）下载网页时同步更新Tode与Visited。下载网页前，判断某个网页是否已经下载过。（5）从上述第3步下载的网页抽取链接并继续下载，直到Todo列表为空。（6）为每个种子url创建一个独立的线程。

2014-05-26 15:16:18 1095

原创关于serialVersionUID的说明

1、为什么要使用serialVersionUID（1）对于实现了Serializable接口的类，可以将其序列化输出至磁盘文件中，同时会将其serialVersionUID输出到文件中。（2）然后有需要使用时，再从磁盘将对象内容及serialVersionUID读入内容中的某个对象。（3）将磁盘内容读入对象时，需要进行强制类型转换，如Person person = (Person)oi

2014-05-24 11:02:17 21916 4

原创 String, StringBuilder 与StringBuffer的区别与联系

（1）String构建的对象不能改变，每次对String进行操作时，如两个String相加，需要新建一个String对象，然后容纳最终的结果。而StringBuilder与StringBuffer构建的对象可以随时在修改其内容，而无需生成新的对象。一般新建一个对象是会生成16个字节的空间，之后根据需要再增加空间。由于一般新构建一个对象涉及分配内存空间分配、无引用对象过多时的垃圾回收等，因此，对于操作频繁的字符串需使用StringBuilder或StringBuffer

2014-05-24 09:56:21 1235

原创【搜索引擎基础知识1】搜索引擎基本架构

（一）搜索引擎的开发一般可分为以下三大部分1、数据采集层：一般使用爬虫获取互联网的数据，重要的开源项目有Heritrxi2、数据分析处理层：将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容，等待用户查询使用，重要的开源项目有Lucene3、视图层：也用户的交互界面，如一个网站的首页其基本架构可参考下图：

2014-05-23 16:00:14 1760

原创【搜索引擎基础知识2】网络爬虫

通用搜索引擎的处理对象是互联网网页，目前网页数量以百亿计，搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地，在本地形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。浏览器和网络爬虫是两种不同的网络客户端，都以相同的方式来获取网页： 1）首先，客户端程序连接到域名系统

2014-05-23 14:44:38 8731

原创【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫

详细可参考（1）书箱：《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》（2）【搜索引擎基础知识1】搜索引擎的技术架构（3）【搜索引擎基础知识2】网络爬虫的介绍1、

2014-05-23 14:07:01 1324

原创【搜索引擎基础知识3】搜索引擎相关开源项目及网站

部分内容转自：http://blog.csdn.net/hguisu/article/details/8024799一、开源项目1.Lucene全文检索系统 http://lucene.apache.org和 http://www.lucene.com.cn/ Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代

2014-05-23 11:44:35 2269

原创 HtmlParser基础教程

1、相关资料官方文档：http://htmlparser.sourceforge.net/samples.htmlAPI：http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器：jsoup等。由于HtmlParser自2006年以后就再没更新，目前很多人推荐使用jsoup代替它。2、使

2014-05-22 11:33:45 30740 1

原创【搜索引擎Jediael开发4】V0.01完整代码

截止目前，已完成如下功能：1、指定某个地址，下载其页面中包含的所有链接指向的网页主要有以下类：1、主类MyCrawler2、网页下载类PageDownloader3、网页内容分类类HtmlParserTool4、接口Filter完整代码可见归档代码 Jediael_v0.01或者https://code.csdn.net/jediael_lu/d

2014-05-21 21:35:00 1122

转载学习金字塔

学习金字塔是美国缅因州的国家训练实验室研究成果，它用数字形式形象显示了：采用不同的学习方式，学习者在两周以后还能记住内容（平均学习保持率）的多少。它是一种现代学习方式的理论。最早它是由美国学者、著名的学习专家爱德加·戴尔1946年首先发现并提出的。

2014-05-21 09:25:48 1340

原创【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接

1、相关资料官方文档：http://htmlparser.sourceforge.net/samples.htmlAPI：http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器：jsoup等。由于HtmlParser自2006年以后就再没更新，目前很多人推荐使用jsoup代替它。2、相关知识（1）通过

2014-05-20 20:50:06 7294 2

转载 Java解析HTML之HTMLParser使用与详解

转自http://free0007.iteye.com/blog/1131163HTMLParser具有小巧，快速的优点，缺点是相关文档比较少（英文的也少），很多功能需要自己摸索。对于初学者还是要费一些功夫的，而一旦上手以后，会发现HTMLParser的结构设计很巧妙，非常实用，基本你的各种需求都可以满足。这里我根据自己这几个月来的经验，写了一点入门的东西，希望能对新学习H

2014-05-19 21:46:33 32311

原创【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件

使用HttpClient进行网络处理的基本步骤如下：1、通过get的方式获取到Response对象。CloseableHttpClient httpClient = HttpClients.createDefault();HttpGet httpGet = new HttpGet("http://www.baidu.com/");CloseableHttpResponse respon

2014-05-19 15:07:24 4866

原创 HttpClient基础教程

1、HttpClient相关的重要资料：官方网站：http://hc.apache.org/API：http://hc.apache.org/httpcomponents-client-4.3.x/httpclient/apidocs/index.htmltutorial: http://hc.apache.org/httpcomponents-client-4.3.x/tutoria

2014-05-18 23:23:06 18381

转载【搜索引擎基础知识2】网络爬虫的介绍

转自：http://blog.csdn.net/hguisu/article/details/7949844通用搜索引擎的处理对象是互联网网页，目前网页数量以百亿计，搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地，在本地形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。

2014-05-16 14:10:18 1777

转载【搜索引擎基础知识1】搜索引擎的技术架构

1. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种：分别是全文搜索引擎（Full Text Search Engine）目录索引类搜索引擎（Search Index/Directory）元搜索引擎（Meta Search Engine）。 ■ 全文搜索引擎　　全文搜索引擎是名副其实的搜索引擎，国外具代表性的有Google、Fast/AllTheW

2014-05-16 14:08:41 3119

原创 JSON之三：获取JSON文本并解释（以google的天气API为例）

google提供了天气的api，以广州天气为例，地址为：http://api.openweathermap.org/data/2.5/weather?q=guangzhou返回的结果为：{ "coord": { "lon": 113.25, "lat": 23.12 }, "sys": { "m

2014-05-14 16:35:53 8907 5

原创 JSON入门之二：org.json的基本用法

java中用于解释json的主流工具有org.json、json-lib与gson，本文介绍org.json的应用。官方文档：http://www.json.org/java/http://developer.android.com/reference/org/json/package-summary.html 1、主要类ClassesJSO

2014-05-14 11:25:56 77500 4

原创《大型网站技术架构》1：概述

参考自《大型网站技术架构》第1~3章1、大型网站架构演化发展历程（1）初始阶段的网站架构：一台服务器分别作为应用、数据、文件服务器（2）应用服务和数据服务分离：三台服务器分别承担上述三项工作，其中应用服务器要求CPU强大、数据库服务器需求更快的硬盘和内存，文件服务器需要较大的硬盘。（3）使用缓存改善网站性能：分为本地缓存以及缓存在专门的分布式服务器上的远程缓存。（4）使

2014-05-07 20:40:24 1561

转载 Apache+tomcat的整合

为什么要做这个整合呢？当然，首先想到是就是Apache和Tomcat的区别。正因为有区别，有各自的优缺点才需要整合，取二者所长，弃二者所短。Apache和Tomcat都可以在他们的官网下载: http://www.apache.org那么首先就来说下Apache和Tomcat的区别:Apache只是一个Web服务器，可以作为独立的web服务器来运行，不过只支持静

2014-05-07 15:08:17 939

jediael_lu的专栏