- 博客(22)
- 资源 (4)
- 收藏
- 关注
原创 Berkeley DB基础教程
一、Berkeley DB的介绍(1)Berkeley DB是一个嵌入式数据库,它适合于管理海量的、简单的数据。如Google使用其来保存账户信息,Heritrix用其来保存froniter.(2)key/value是Berkeley DB用来管理数据的基础,每个key/value对代表一条记录。(3)Berkeley DB在底层实现采用B树,可以看成能够存储大量数据的HashMa
2014-05-29 15:21:08 20716 6
原创 【搜索引擎Jediael开发笔记】v0.1完整代码
本版本完成以下功能:(1)创建用于保存种子URL的配置文件及其数据结构(2)创建用于保存Todo信息(未下载URL)的数据结构(3)创建用于保存Visited信息(已下载的URL)的数据结构(4)下载网页时同步更新Tode与Visited。下载网页前,判断某个网页是否已经下载过。(5)从上述第3步下载的网页抽取链接并继续下载,直到Todo列表为空。(6)为每个种子url创建一个独立的线程。
2014-05-26 15:17:33 1027
原创 【搜索引擎Jediael开发笔记】V0.1完整代码
本版本完成以下功能:(1)创建用于保存种子URL的配置文件及其数据结构(2)创建用于保存Todo信息(未下载URL)的数据结构(3)创建用于保存Visited信息(已下载的URL)的数据结构(4)下载网页时同步更新Tode与Visited。下载网页前,判断某个网页是否已经下载过。(5)从上述第3步下载的网页抽取链接并继续下载,直到Todo列表为空。(6)为每个种子url创建一个独立的线程。
2014-05-26 15:16:18 1095
原创 关于serialVersionUID的说明
1、为什么要使用serialVersionUID(1)对于实现了Serializable接口的类,可以将其序列化输出至磁盘文件中,同时会将其serialVersionUID输出到文件中。(2)然后有需要使用时,再从磁盘将对象内容及serialVersionUID读入内容中的某个对象。(3)将磁盘内容读入对象时,需要进行强制类型转换,如Person person = (Person)oi
2014-05-24 11:02:17 21916 4
原创 String, StringBuilder 与StringBuffer的区别与联系
(1)String构建的对象不能改变,每次对String进行操作时,如两个String相加,需要新建一个String对象,然后容纳最终的结果。 而StringBuilder与StringBuffer构建的对象可以随时在修改其内容,而无需生成新的对象。一般新建一个对象是会生成16个字节的空间,之后根据需要再增加空间。 由于一般新构建一个对象涉及分配内存空间分配、无引用对象过多时的垃圾回收等,因此,对于操作频繁的字符串需使用StringBuilder或StringBuffer
2014-05-24 09:56:21 1235
原创 【搜索引擎基础知识1】搜索引擎基本架构
(一)搜索引擎的开发一般可分为以下三大部分1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个网站的首页其基本架构可参考下图:
2014-05-23 16:00:14 1760
原创 【搜索引擎基础知识2】网络爬虫
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。 浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页: 1)首先, 客户端程序连接到域名系统
2014-05-23 14:44:38 8731
原创 【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
详细可参考(1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》(2)【搜索引擎基础知识1】搜索引擎的技术架构 (3)【搜索引擎基础知识2】网络爬虫的介绍1、
2014-05-23 14:07:01 1324
原创 【搜索引擎基础知识3】搜索引擎相关开源项目及网站
部分内容转自:http://blog.csdn.net/hguisu/article/details/8024799一、 开源项目1.Lucene全文检索系统 http://lucene.apache.org和 http://www.lucene.com.cn/ Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代
2014-05-23 11:44:35 2269
原创 HtmlParser基础教程
1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.htmlAPI:http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。2、使
2014-05-22 11:33:45 30740 1
原创 【搜索引擎Jediael开发4】V0.01完整代码
截止目前,已完成如下功能:1、指定某个地址,下载其页面中包含的所有链接指向的网页主要有以下类:1、主类MyCrawler2、网页下载类PageDownloader3、网页内容分类类HtmlParserTool4、接口Filter完整代码可见归档代码 Jediael_v0.01或者https://code.csdn.net/jediael_lu/d
2014-05-21 21:35:00 1122
转载 学习金字塔
学习金字塔是美国缅因州的国家训练实验室研究成果,它用数字形式形象显示了:采用不同的学习方式,学习者在两周以后还能记住内容(平均学习保持率)的多少。它是一种现代学习方式的理论。最早它是由美国学者、著名的学习专家爱德加·戴尔1946年首先发现并提出的。
2014-05-21 09:25:48 1340
原创 【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.htmlAPI:http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。2、相关知识(1)通过
2014-05-20 20:50:06 7294 2
转载 Java解析HTML之HTMLParser使用与详解
转自http://free0007.iteye.com/blog/1131163HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。 这里我根据自己这几个月来的经验,写了一点入门的东西,希望能对新学习H
2014-05-19 21:46:33 32311
原创 【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件
使用HttpClient进行网络处理的基本步骤如下:1、通过get的方式获取到Response对象。CloseableHttpClient httpClient = HttpClients.createDefault();HttpGet httpGet = new HttpGet("http://www.baidu.com/");CloseableHttpResponse respon
2014-05-19 15:07:24 4866
原创 HttpClient基础教程
1、HttpClient相关的重要资料:官方网站:http://hc.apache.org/API:http://hc.apache.org/httpcomponents-client-4.3.x/httpclient/apidocs/index.htmltutorial: http://hc.apache.org/httpcomponents-client-4.3.x/tutoria
2014-05-18 23:23:06 18381
转载 【搜索引擎基础知识2】网络爬虫的介绍
转自:http://blog.csdn.net/hguisu/article/details/7949844通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。
2014-05-16 14:10:18 1777
转载 【搜索引擎基础知识1】搜索引擎的技术架构
1. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(Full Text Search Engine)目录索引类搜索引擎(Search Index/Directory)元搜索引擎(Meta Search Engine)。 ■ 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheW
2014-05-16 14:08:41 3119
原创 JSON之三:获取JSON文本并解释(以google的天气API为例)
google提供了天气的api,以广州天气为例,地址为:http://api.openweathermap.org/data/2.5/weather?q=guangzhou返回的结果为:{ "coord": { "lon": 113.25, "lat": 23.12 }, "sys": { "m
2014-05-14 16:35:53 8907 5
原创 JSON入门之二:org.json的基本用法
java中用于解释json的主流工具有org.json、json-lib与gson,本文介绍org.json的应用。官方文档:http://www.json.org/java/http://developer.android.com/reference/org/json/package-summary.html 1、主要类ClassesJSO
2014-05-14 11:25:56 77500 4
原创 《大型网站技术架构》1:概述
参考自《大型网站技术架构》第1~3章1、大型网站架构演化发展历程(1)初始阶段的网站架构:一台服务器分别作为应用、数据、文件服务器(2)应用服务和数据服务分离:三台服务器分别承担上述三项工作,其中应用服务器要求CPU强大、数据库服务器需求更快的硬盘和内存,文件服务器需要较大的硬盘。(3)使用缓存改善网站性能:分为本地缓存以及缓存在专门的分布式服务器上的远程缓存。(4)使
2014-05-07 20:40:24 1561
转载 Apache+tomcat的整合
为什么要做这个整合呢?当然,首先想到是就是Apache和Tomcat的区别。正因为有区别,有各自的优缺点才需要整合,取二者所长,弃二者所短。Apache和Tomcat都可以在他们的官网下载: http://www.apache.org那么首先就来说下Apache和Tomcat的区别:Apache只是一个Web服务器,可以作为独立的web服务器来运行,不过只支持静
2014-05-07 15:08:17 939
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人