计算机科学型界面截图,计算机科学与技术-蔡汉锦 论文格式.doc

深 圳 大 学

本 科 毕 业 论 文(设计)

题目: 个人搜索引擎的实现

姓名: 蔡汉锦

专业: 计算机科学与技术

学院: 计算机与软件学院

学号: 2007170019

指导教师:

职称:

2011年 5 月 5 日

深圳大学本科毕业论文(设计)诚信声明

本人郑重声明:所呈交的毕业论文(设计),题目《个人搜索引擎的实现》 是本人在指导教师的指导下,独立进行研究工作所取得的成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式注明。除此之外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。本人完全意识到本声明的法律结果。

毕业论文(设计)作者签名:

日期: 年 月 日

目 录

摘要(关键词)1

1.引言1

1.1研究背景及意义1

1.2本课题主要工作1

2.数据提取技术1

2.1Microsoft Documents内容提取2

2.2PDF文档内容提取3

2.3网页数据提取技术4

3.全文索引与搜索技术6

3.1全文检索6

3.2Lucene全文检索类库6

3.3中文分词7

3.4IKAnalyzer中文分词类库7

3.5索引与搜索核心算法7

4.数据库连接技术8

4.1JDBC8

4.2本实验对数据库连接的封装9

5.实验环境9

6.本地文件全文搜索实验方案10

6.1系统简介10

6.2实现方案介绍11

6.3工程模块各类关系介绍12

6.4程序运行界面13

7.网络数据全文搜索实验方案13

7.1系统简介13

7.2校内公文通检索14

7.2.1系统简介14

7.2.2实现方案介绍14

7.2.3工程模块各类关系介绍15

7.2.4程序运行界面截图16

7.3腾讯微博相关数据检索17

7.3.1系统简介17

7.3.2实现方案介绍17

7.3.3工程模块各类的关系介绍20

7.3.4工程模块运行界面22

7.4人人网日志相关信息检索23

7.4.1系统简介23

7.4.2实现方案介绍23

7.4.3工程模块各类关系介绍24

7.4.4工程模块运行界面截图25

8.结束与展望26

参考文献27

致谢28

Abstract(Key words)29

个人搜索引擎的实现

计算机与软件学院计算机科学与技术 蔡汉锦

学号:2007170019

【摘要】针对通用搜索引擎无法访问内部网、SNS网络和个人电脑文档信息的问题,本文提出并实现了基于Lucene与IKAnalyzer的个人搜索引擎。该搜索引擎主要实现的功能有:(1)个人电脑文档信息检索。通过对txt、word、excel、pdf文档的正文提取,建立统一的索引。实现具有图形界面的本地文件搜索系统。(2)封闭网络(SNS、微博、内部网络)的信息检索。突破用户权限,实时加载网页,分析网页结构并提取内容,创建索引并本地保存数据。通过实时索引与本地数据库索引相结合的方式,解决了网络空间庞大数量造成搜索缓慢的问题。以web的形式开发了集校内公文通、腾讯微博、人人网日志信息的一站式全文检索系统。从实际运行效果分析,该搜索系统弥补了通用搜索引擎的不足,能够满足基本的个性化搜索的需求。

【关键词】 Lucene;网页内容提取;全文索引;IKAnalyer

引言(一级标题三号黑体加粗,单倍行距、段前段后0.5行)

研究背景及意义(二级标题小三号黑体加粗,单倍行距、段前段后0.5行)

搜索技术能够为用户提供信息检索,网址导航的功能,是现在网络用户访问互联网的最主要方式。通用搜索引擎能够提供一站式的信息服务,但是存在返回结果不准确,专业性不深,个性化不强的缺点。不同于通用搜索和垂直搜索引擎,我们提出从个人信息环境出发的个人搜索引擎。个人环境最主要的即包括个人电脑文档信息和个人用户常接触的网络信息,其中最典型的个人网络环境有SNS网络[1],常关注的博客网络,单位内部网络和微博信息。用户电脑数据和个人信息网络往往是其它搜索引擎无法涉及到的信息孤岛[2]。而这

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值