信息检索-搜索引擎的搭建（Lucene）

最新推荐文章于 2024-07-27 09:39:51 发布

置顶

昵称亦存在

最新推荐文章于 2024-07-27 09:39:51 发布

阅读量8.4k

点赞数 5

分类专栏：搜索引擎文章标签：搜索引擎信息检索新闻 lucene 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyhui95/article/details/72526193

版权

本文介绍了一次使用Lucene搭建搜索引擎的实验，以山东大学新闻网为数据源，通过爬虫抓取新闻，利用Lucene进行索引构建和查询。文章详细讲解了爬取策略、索引构建过程、查询排序算法以及前端查询界面的设计，最终实现了对新闻内容的高效检索。

摘要由CSDN通过智能技术生成

搜索引擎为信息检索课程的实验设计，爬取山东大学新闻网，使用lucene等开源工具搭建小型搜索引擎。

要求 :

Web网页信息抽取
以山东大学新闻网为起点进行网页的循环爬取，保持爬虫在 view.sdu.edu.cn之内(既只爬取这个站点的网页)，爬取的网页数量越多越好。

索引构建
对上一步爬取到的网页进行结构化预处理，包括基于模板的信息抽取、分字段解析、分词、构建索引等。

检索排序
对上一步构建的索引库进行查询，对于给定的查询，给出检索结果，明白排序的原理及方法。

检索评价
对于给定的测试查询，利用百度的检索结果作为基准，对自己的检索结果进行评价，计算自己结果的查准率、查全率、F1值。

开发工具

Eclipse jdk1.8
Tomcat 7.0
Lucene4.3
python3.6

代码资源地址：https://download.csdn.net/download/yyhui95/10918988

设计方案与过程

1. 信息爬取

爬取策略与分析

通过分析发现，山大新闻网的新闻都通过分类存放在首页上方的的二级导航中，首先，我们只爬取二级导航。
这里写图片描述

之后进入其中的一个二级导航，发现新闻在其中一条条的罗列出来，会有很多页，每一页都有，那么，我们只要获取页数，进行分页爬取，即可获取所有的新闻内容链接。
这里写图片描述
通过对新闻链接的比较发现，新闻页的链接形式为

最低0.47元/天解锁文章

昵称亦存在

关注

5
点赞
踩
31

收藏

觉得还不错? 一键收藏
23
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

昵称亦存在 CSDN认证博客专家 CSDN认证企业博客

码龄9年

2: 原创

132万+: 周排名

152万+: 总排名

1万+: 访问

: 等级

158: 积分

16: 粉丝

6: 获赞

27: 评论

23: 收藏

私信

关注

热门文章

分类专栏

搜索引擎 1篇
python 1篇

最新评论

山东大学校园网自动重连（python3.6）
FSYC: 原来不只是我遇到了这个问题
信息检索-搜索引擎的搭建（Lucene）
linyan1214: 我想请问下点击数到底是如何获取的
信息检索-搜索引擎的搭建（Lucene）
linyan1214: 您好可以参考一下您的源代码，学习一下，qqhzoe@163.com非常感谢！
信息检索-搜索引擎的搭建（Lucene）
qq_29673919: 有一个问题，我现在用的版本是lucene7.6，但是查询只能匹配第一个字，用的还不是前缀，别的词查询不到结果
信息检索-搜索引擎的搭建（Lucene）
le6peer 回复 weixin_43405623: 您好，请问你解决这个问题了吗？我也碰到了这个问题

最新文章

山东大学校园网自动重连（python3.6）

目录

评论 23

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。