搜索引擎
小松悦读会 | kevinelstri
小松悦读会,用心阅读,执着专注!
展开
-
【Lucene02】索引和搜索建立
1、索引 1、创建索引库IndexWriter 2、根据文件创建文档Document 3、向索引库中写入文档内容对文档建立索引,Lucene提供了5个类:Document, Field, IndexWriter, Analyzer, Directory. 1、Document 用来描述文档的,这里的文档可以指一个 HTML 页面,一封电子邮件,或者是一个文本文件原创 2016-08-29 20:29:45 · 652 阅读 · 0 评论 -
【垂直搜索引擎搭建14】HtmlParser中Filter方法(URL网络地址)
1、TagNameFilterimport java.io.IOException;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.filters.TagNameFilter;import org.htmlparser.原创 2016-08-24 20:52:17 · 517 阅读 · 0 评论 -
【垂直搜索引擎搭建15】HtmlParser中Filter方法(本地URL地址)
package org.algorithm;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.原创 2016-08-24 21:39:58 · 454 阅读 · 0 评论 -
【垂直搜索引擎搭建00】说在前面的话
1、背景网上信息量太大 通用搜索引擎不足 2、系统构建搜索引擎的组成: 搜索器、分析器、索引器、检索器、用户接口3、环境及框架 windows 7 64bit jdk 7 tomcat 8 eclipse SR2 myeclipse 2013 heritrix 1.14.原创 2016-08-12 20:28:11 · 946 阅读 · 0 评论 -
【垂直搜索引擎搭建01】heritrix环境搭建
在eclipse上配置heritrixEclipse 配置 Heritrix 1.14.4的配置过程如下: 首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip(Windows) 在Eclipse 中创建一个java project的工程(可原创 2016-08-12 20:53:25 · 645 阅读 · 0 评论 -
【垂直搜索引擎搭建02】heritrix启动
一、dos命令下运行程序 (1)下载heritrix (2)建立一个runheritrix.bat文件 runheritrix.bat文件代码:%~d0cd %~dp0java -Xmx512m -Dheritrix.home=./heritrix -cp "./heritrix/heritrix-1.14.4.jar;./heritrix/lib/ant-1.6.原创 2016-08-12 21:48:53 · 696 阅读 · 0 评论 -
IKAnalyzer分词(本地文件)
对本地文件进行分词,主要是通过加载本地文件,将txt文本里的以字符串形式导入,然后进行分词处理。package org.algorithm;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.io.StringRe原创 2016-08-25 10:10:38 · 849 阅读 · 0 评论 -
IKAnalyzer分词(直接输入文本)
IKAnalyzer是一个开源基于JAVA语言的轻量级的中文分词第三方工具包,采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式。1、采用IKSegmenter进行独立IK分词(1)直接读取字符串package org.algorithm;import java.io.IOException;import java.io.StringReader;import org.w原创 2016-08-25 00:20:54 · 2018 阅读 · 1 评论 -
Lucene自带的分词器分词操作
Lucene自带的分词器分词操作: SimpleAnalyzer StopAnalyzer WhitespaceAnalyzer StandardAnalyzerpackage org.algorithm;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import原创 2016-08-25 11:14:00 · 1463 阅读 · 0 评论 -
Lucene token解析
Lucene模块分析: Lucene的 analysis 模块主要负责词法分析及语言处理而形成Term. Lucene的 index 模块主要负责索引的创建,里面有IndexWriter. Lucene的 store 模块主要负责索引的读写。 Lucene的 QueryParser 主要负责语法分析。 Lucene的 search 模块主要负责对索引的原创 2016-08-25 20:24:23 · 1453 阅读 · 0 评论 -
【垂直搜索引擎搭建05】heritrix:Queue-assignment-policy
Heritrix使用了Berkeley DB来构建链接队列。这些队列被置放于BdbMultipleWorkQueues中时,总是先给予一个Key,然后将那些Key值相同的链接放在一起, 成为一个队列,也就是一个Queue。在Heritrix中,为每个队列赋上Key值的策略,也就是它的queue-assignment-policy。Heritrix默认使用的queue-assignment-polic原创 2016-08-14 16:12:47 · 556 阅读 · 0 评论 -
【垂直搜索引擎搭建06】heritrix:取消Robot.txt限制
Robot.txt是一种专门用于搜索引擎网络爬虫的文件,当构建一个网站时,如果希望该网站的内容被搜索引擎收录,就可以在网站中创建一个robot.txt文件,在这个文件中,声明该网站不想被robot访问的部分。heritrix在 其说明文档中,表明它是一个完全遵守robot.txt协议的网络爬虫。但是如果一个网站并没有放置robot.txt,heritrix仍然花费大量时间去访问这个文件,这样就降原创 2016-08-14 16:26:51 · 1176 阅读 · 0 评论 -
【垂直搜索引擎搭建07】heritrix工具化
一、免登陆 在每一次登陆heritrix都需要进行输入用户名和密码,而在使用过程中,为了方便,可以设置为免登陆状态。在webapps文件夹下,找到admin.war文件 解压admin.war文件,并打开文件夹WEB-INF 打开web.xml文件,修改.jsp为.do,这样就不能阻止jsp文件的访问了,就不会调用login.jsp,也就不需要进行用户名密码了 重新将文件夹打包成war文件原创 2016-08-14 17:00:18 · 595 阅读 · 0 评论 -
输出txt列表的内容(Txt2String)
对于txt列表,如何从列表中将数据输出,这是在查询的过程中首先需要做的:package org.algorithm;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.util.ArrayList;import java.util.List;public class原创 2016-08-26 10:34:45 · 1052 阅读 · 0 评论 -
【垂直搜索引擎搭建13】HtmlParser中Visitor实践
使用NodeVisitor方式访问html结点package com.javaeye.suo.htmlparser.samples;import org.htmlparser.Parser;import org.htmlparser.Remark;import org.htmlparser.Tag;import org.htmlparser.Text;import org.htmlparse原创 2016-08-24 19:45:20 · 604 阅读 · 0 评论 -
【Lucene01】索引的建立&Luke的配置使用
在Lucene对文本进行处理的过程中,可以大致分为三大部分: 1、索引文件:提取文档内容并分析,生成索引 2、搜索内容:搜索索引内容,根据搜索关键字得出搜索结果 3、分析内容:对搜索词汇进行分析,生成Quey对象。索引文件基本步骤如下: 1、创建索引库IndexWriter 2、根据文件创建文档Document 3、向索引库中写入文档内容packa原创 2016-08-29 20:02:09 · 1637 阅读 · 0 评论 -
【Lucene02】索引的相关概念
一、重要类 (1)IndexWriter:索引过程中的核心组件,用于创建新索引或者打开已有索引,以及向索引中添加、删除、更新被索引文档的信息。 (2)Document:代表一些域(field)的集合。 (3)Field及其子类:一个域,如文档创建时间,作者,内容等。 (4)Analyzer:分析器。 (5)Directory:可用于描述Lucene索引的存放位置。二、文原创 2016-08-29 21:23:57 · 555 阅读 · 0 评论 -
【垂直搜索引擎搭建04】heritrix:扩展Extractor
解析一个网页时,常常需要有特定的需要,而对于Extractor而言,是将网站上所有网页全部抓取下来,所以通过扩展Extractor来抓取特定的网页。Extractor:package org.archive.crawler.extractor;/* *Extractor:抓取网页时,将网页上的所有信息都抓取下来,没有任何的格式选择 */import java.util.logging.Le原创 2016-08-14 15:56:19 · 938 阅读 · 0 评论 -
【垂直搜索引擎搭建03】heritrix:扩展FontierScheduler抓取特定的信息
一、FontierScheduler FontierScheduler是一个 PostProcessor,它的作用是将在Extractor中所分析得出的链接加入到 Frontier中,以待继续处理。FontierScheduler:/* FrontierScheduler */package org.archive.crawler.postprocessor;import java.uti原创 2016-08-14 15:33:56 · 642 阅读 · 0 评论 -
【Heritrix 01】Heritrix ecplise下配置安装存在的问题
问题: 1、端口的问题,在配置中修改端口 2、错误500的问题,缺少文件 3、占用问题,重启eclipse解决方案: 1、由于计算机上安装有各种各样的服务,会使得许多端口得到占用,而heritrix在默认配置下端口是8080,这就会产生端口的忙碌状态,是的heritrix一直处于等待状态,而无法响应; 所以在配置heritrix首先对端原创 2016-07-18 15:34:53 · 479 阅读 · 0 评论 -
【Heritrix 02】Heritrix包介绍
package heritrix;public class heritrixSourceAnalyzer01 { public static void main(String[] args) { System.out.println("Heritrix源码解读!"); } /* * ----------------------------------【H原创 2016-07-19 15:40:30 · 471 阅读 · 0 评论 -
【Heritrix 03】heritrix_dmesg.log
package heritrix;public class heritrix_dmesg { public static void main(String[] args) { System.out.println("heritrix的启动信息!"); } /* * ---------------------------------【heritrix_dm原创 2016-07-19 15:42:30 · 631 阅读 · 0 评论 -
【Heritrix 04】heritrix.properties+java.util.logging.Logger
package heritrix;public class heritrix_properties { public static void main(String[] args) { System.out.println("配置参数"); } /* * ------------------------------------【heritrix.prop原创 2016-07-19 15:46:26 · 951 阅读 · 0 评论 -
【Java菜鸟 02】Pattern和Matcher详解
Matcher类提供了对正则表达式的分组支持,以及对正则表达式的多次匹配支持. 单独用Pattern只能使用Pattern.matcher(String regex,CharSequence input)一种最基础最简单的匹配。java正则表达式通过java.util.regex包下的Pattern类与Matcher类实现(建议在阅读本文时,打开java API文档,当介绍原创 2016-08-14 18:56:04 · 1250 阅读 · 0 评论 -
【垂直搜索引擎搭建10】HtmlParser中Filter实践
Filter种类: 判断类Filter: TagNameFilter HasAttributeFilter HasChildFilter HasParentFilter HasSiblingFilter IsEqualFilter 逻辑运算Filter: AndFilter NotFilter OrFilter XorF原创 2016-08-24 16:15:14 · 594 阅读 · 0 评论 -
【垂直搜索引擎搭建11】使用htmlparser获取页面的字符编码encoding
1,确定目标。对于html页面来说,一般都有确定编码的语句:<meta http-equiv=”Content-Type” content=”text/html; charset=gb2312″ />可以通过这一行的特征来取出网页的编码。2,选出特征。 1)它是meta标签 2)具有http-equiv属性值为Content-Type 3)将属性content中原创 2016-08-24 17:04:59 · 787 阅读 · 1 评论 -
【垂直搜索引擎搭建08】HtmlParser构建
1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.html API:http://htmlparser.sourceforge.net/javadoc/index.html2、使用HtmlPaser的关键步骤(1)通过Parser类创建一个解释器(2)创建Filter或者Visitor(3)使用parser根据filter或者visitor来原创 2016-08-15 12:00:08 · 634 阅读 · 0 评论 -
【垂直搜索引擎搭建12】htmlparser简介
1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.html API:http://htmlparser.sourceforge.net/javadoc/index.html2、使用HtmlPaser的关键步骤(1)通过Parser类创建一个解释器(2)创建Filter或者Visitor(3)使用parser根据filter或者visitor来原创 2016-08-24 18:36:06 · 391 阅读 · 0 评论 -
POI 输出word列表的内容(Doc2String)
对于word列表,如何从列表中将数据输出,这是在查询的过程中首先需要做的:package org.algorithm;import java.io.File;import java.io.FileInputStream;import java.util.ArrayList;import java.util.List;import org.apache.poi.hwpf.HWPFDocument原创 2016-08-26 11:18:54 · 737 阅读 · 0 评论