搜索引擎
文章平均质量分 63
zgljl2012
这个作者很懒,什么都没留下…
展开
-
【搜索引擎】HtmlParser - org.htmlperser.Parser(1)
HtmlParser包里最重要的类Parser,下面是它的初始化(其中之一)以及初步应用,仅仅只是把目标网址里的文本内容提取出来: package ParserStudy; import org.htmlparser.Parser; import org.htmlparser.util.ParserException; import org.htmlparser.visitors.Text原创 2015-02-09 20:31:26 · 1145 阅读 · 0 评论 -
【搜索引擎】HTMLParser - org.htmlparser.Node(1)
Parser将网页信息解析成为一棵节点树,Node(节点里)保存了信息。 下面是一些常用的类和方法: Parser解析类方法: NodeIterator elements(); 获取节点迭代器(此方法搭配迭代器的方法可用于获取根节点,详见示例) void setEncoding(String encoding); 设置编码方式 NodeIterator节点迭代器: Node n原创 2015-02-23 18:08:19 · 1883 阅读 · 0 评论 -
【搜索引擎】Berkeley DB的API封装
前不久也封装了一个,但那个是基于存储映射实现的,因为要实现特定对象存储,所以过程有些复杂,今天是直接使用BerkeleyDB的API封装成的一个MyBerkeleyDB,简单易用。下面上代码:步骤1、确定类和变量/********************************* * 使用BerkeleyDB封装了一些数据库操作 * 包括设置缓冲区,设置编码,设置数据可库 * 路径,存储键值对原创 2015-03-27 01:39:05 · 2784 阅读 · 0 评论 -
【搜索引擎】BerkeleyDB实现队列数据库
在使用爬虫爬取URL时,我们总会要使用到队列这一数据结构,在示例里,使用java写一个队列类可以解决此问题,但这种队列存储的数据只能存储在内存中,一旦断电,所有数据全部清空,下次又得重来。所以,这种队列不能用于解决问题,我们必须实现一个能够持久化数据的队列。下面是我用Berkeley DB实现的一个队列,BerkeleyDB是一个内存嵌入式数据库,当内存中存储的数据大于它缓冲区大小时,它就会把数据自原创 2015-04-07 13:36:43 · 1967 阅读 · 0 评论