信息检索
麦克斯韦的妖精
大槐树下一梦醒,人事功名两茫茫。长恨当年花开日,少不更事老来伤。
展开
-
用Python实现爬虫爬取京东笔记本电脑图片
最近需要从网上搜集一些数据,于是花了几个小时把爬虫学了一下。其实我在两年前的一个简单的站内搜索引擎的实现已经涉及到了简单的爬虫,不过那时候老想着偷懒,加上山大新闻网的设计又很好爬,所以当时写得很low,因而有网友问我要爬虫代码的时候也没好意思给。今天翻了一下韦玮老师的精通Python网络爬虫,一口气看了前六章,就想写一个简单的爬虫来练习一下。书中有一个爬取京东的手机图片的例子,我只好来爬笔记本电脑...原创 2019-11-05 21:58:07 · 1815 阅读 · 1 评论 -
信息检索导论要点整理
这是在准备期末考试的时候根据王斌博士翻译的《信息检索导论》(人民邮电出版社出版)和山东大学信息检索实验室的陈竹敏老师的授课课件进行整理的。、归一化计算笔记繁琐。前言1、 IR的两种模式:pull(ad hoc)或者push(filtering)Pull:用户是主动的发起请求,在一个相对稳定的数据集合上进行查询。push:用户事先定义自己的兴趣,系统在不断到来的流动数原创 2017-07-07 10:23:24 · 11171 阅读 · 0 评论 -
一个简单的站内搜索引擎的实现
这学期的信息检索课程的实验要求做一个简单的站内搜索引擎,用来搜索山东大学新闻网(http://www.view.sdu.edu.cn/)的新闻内容。具体要求如下:今天终于考完了这学期的最后一门计算机图形学的考试,现在有时间来将这个实验发表到博客了。需求分析 该项目可以划分成几个部分:网页的爬取、网页信息的整理存储、索引的建立、搜索的实现以及结果排序和最后的Web实...原创 2020-06-17 09:00:22 · 42272 阅读 · 38 评论 -
Eclipse中导入Heritrix,报错找不到类 sun.net.www.protocol.file.FileURLConnection
本文转自百度知道:https://zhidao.baidu.com/question/502397085.html按照网上看到的用法导入Heritrix到Eclipse。在Heritrix.java中间中提示有错误 只有这一个。在Heritrix1.14.3配置运行时,出现Error:找不到sun.net.www.protocol.file.FileURLConnection,转载 2017-04-18 22:48:25 · 1736 阅读 · 0 评论 -
开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门
这部分是在读《开发自己的搜索引擎》第二版,邱哲、符滔滔、王学松编著,人民邮电出版社,的随手笔记。由于是读别人的书,主要是记录的一些原书中的句子,因而不能算是原创,姑且算是转载吧。搜索引擎与信息检索信息检索的过程:构建文本库、建立索引、进行搜索、返回结果以前对结果进行过滤。倒排索引常用的索引方式有3种,分别是倒排、后缀数组和签名文档。从理论上说,倒排是一种面向原创 2017-04-10 21:52:04 · 613 阅读 · 0 评论 -
《开发自己的搜索引擎》读书笔记——索引的建立
Lucene的Document。Document的意义为文档,在Lucene中,它代表一种逻辑文件。Lucene本身无法对物理文件建立索引,而只能识别并处理Document类型的文件。在某些时候可以将一个Document与一个物理文件进行对应,用一个Document来代替一个物理文件,然而更多的时候,Document和物理的文件没有关系,它作为一种数据源的集合,向Lucene提供原始的要索引的原创 2017-04-12 08:42:40 · 3251 阅读 · 0 评论 -
利用Lucene实现一个简单的布尔搜索
在布尔查询的对象中,包含一个子句的集合,各个子句间都是如“与”、“或”这样的布尔逻辑。Lucene中所遇到的各种复杂查询,最终都可以表示成布尔型的查询。下面代码就是实现了一个简单的布尔查询。package LuceneSearch;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.l原创 2017-04-12 08:54:11 · 2149 阅读 · 0 评论 -
《开发自己的搜索引擎》读书笔记——Lucene搜索
使用IndexSearcher进行搜索Lucene搜索相关的API多数都被包含在org.apache.lucene.search包中。其中,最重要的是IndexSearcher类。(1)、IndexSearcher有三个public的构造函数,均以索引的存放目录作为参数。(2)、IndexSearcher的最简单使用IndexSearcher searcher = newIndex原创 2017-04-12 22:02:45 · 2694 阅读 · 0 评论 -
《开发自己的搜索引擎》读书笔记——排序
相关度排序Searcher的explain方法,解释文档得分的具体情况。文档得分主要由4个部分内容来决定,即tf(词条频率)、idf(反转文档频率)、boost(Field的激励因子)和lengthNorm(长度因子)。tf值的计算方法时某个关键字在某文档中出现次数的平方根。在进行相关度排序的时候,如果想人为地增加某个文档的相关度,使其在搜索结果中排在更靠前的位置上,则可以使用bo原创 2017-04-13 22:51:04 · 728 阅读 · 0 评论 -
《开发自己的搜索引擎》读书笔记——一个简单的过滤的例子
Lucene中所有的过滤器均来自于一个抽象的基类org.apache.lucene.search.Filter,它定义了过滤器的基本行为。Filter是一种过滤行为,这种过滤行为在Lucene的搜索时的表现就是“视而不见”,即遇到该文档时,发现它被“过滤”了,于是就省略它。BitSet是一种“位集合”队列,这个队列中的每个元素都只有两种取值,即true或false,Lucene以这两种取值来代原创 2017-04-15 11:03:12 · 919 阅读 · 0 评论 -
《开发自己的搜索引擎》读书笔记——Lucene的分析器
搜索引擎后台模块简图在Lucene中,一个标准的分析器由两部分组成。一部分是分词器,被称为Tokenizer,另一部分是过滤器,被称为TokenFilter。一个分析器往往由一个分词器和多个过滤器组成,这里所说的过滤器与上一部分所说的过滤器是完全不同的两个概念,此处的Filter主要是用于对用户切出来的词进行一些处理,如去掉一些敏感词、转换大小写、转换单复数等。TokenFilte原创 2017-04-18 15:39:41 · 485 阅读 · 0 评论 -
开源爬虫: Heritrix 1.14.4 安装/使用
本文转自:http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.htmlHeritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行。目前 Heritrix 的转载 2017-04-18 22:42:59 · 1302 阅读 · 0 评论