1、背景
- 网上信息量太大
- 通用搜索引擎不足
2、系统构建
搜索引擎的组成:
搜索器、分析器、索引器、检索器、用户接口
3、环境及框架
windows 7 64bit
jdk 7
tomcat 8
eclipse SR2
myeclipse 2013
heritrix 1.14.4
lucene 4.6.0
solr 4.6.0
struts 2.3.16
spring 4.0.1
hibernate 4.3.1
jquery-easyui 1.3.5
flexpaper swftools
mysql 5.5
4、整体项目流程
5、整体技术框架
6、课程内容
一、搭建heritrix
1.什么是网络爬虫
2.网络爬虫能做什么
3.Heritrix原理
4.Heritrix搭建二、如何进行主题抓取
1.什么是主题抓取
2.主题抓取的意义
3.主题抓取的策略
4.如何用heritrix进行主题抓取三、heritrix优化
1. ELFHash算法
2.关于robot.txt
3.将heritrix打包成工具四、解析html页面
1.java正则表达式
2.基于模板获取网页内容
3.利用htmlparser解析html五、中文分词介绍
1.Lucene自带的分词
2.ICTCLAS
3.IK
4.领域词识别六、网页去重
1.网页去重的意义
2.网页去重的主要方法
3.什么是tf*idf
4.基于指纹算法的网页去重七、Lucene4.6快速索引与搜索
1.如何用lucene创建索引
2.如何用lucene搜索结果
3.Lucene中intfield怎么搜索
4.Lucene的结果高亮显示八、Lucene4.6索引的相关操作
1.创建索引
2.修改索引
3.删除索引
4.索引优化九、Lucene4.6的query
1.TermQuery
2.BooleanQuery
各种query… …十、Lucene的Filter及自定义排序
1.Filter
2.Lucene自带排序及指定权重
3.Lucene自定义排序十一、Solr快速索引与搜索
1.什么是solr
2.为什么工程中要使用solr
3.Solr的原理
4.如何在tomcat中运行solr
5.利用solr进行索引与搜索十二、Solr的查询及Filter
1.solr的各种查询
2.solr的Filter
3.solr的排序
4.solr的高亮十三、Solr的facet介绍
1.solr的某个域统计
2.solr的范围统计十四、Solrcloud集群搭建
1.zookeeper简介
2.solrcloud集群搭建十五、搜索服务的工具封装
1.工厂模式
2.封装搜索服务_lucene
3.封装搜索服务_solr
4.封装工具,支持配置十六、项目实战
1.项目需求分析及框架选择
2.Struts 2.3.16介绍
3.整合spring 4.0.1
4.整合hibernate 4.3.1
5. jquery-easyui 1.3.5
6.heritrix 在工程中的运用
7.搜索框架在工程中的运用
8.Flexpaper模仿百度文库
9.文件上传
10.相关代码编写
11.搜索结果优化
12.项目总结