【垂直搜索引擎搭建00】说在前面的话

1、背景

  • 网上信息量太大
  • 通用搜索引擎不足

2、系统构建

这里写图片描述

搜索引擎的组成:
搜索器、分析器、索引器、检索器、用户接口

3、环境及框架

windows 7 64bit
jdk 7
tomcat 8
eclipse SR2
myeclipse 2013
heritrix 1.14.4
lucene 4.6.0
solr 4.6.0
struts 2.3.16
spring 4.0.1
hibernate 4.3.1
jquery-easyui 1.3.5
flexpaper swftools
mysql 5.5

4、整体项目流程

这里写图片描述

5、整体技术框架

这里写图片描述

6、课程内容

一、搭建heritrix
1.什么是网络爬虫
2.网络爬虫能做什么
3.Heritrix原理
4.Heritrix搭建

二、如何进行主题抓取
1.什么是主题抓取
2.主题抓取的意义
3.主题抓取的策略
4.如何用heritrix进行主题抓取

三、heritrix优化
1. ELFHash算法
2.关于robot.txt
3.将heritrix打包成工具

四、解析html页面
1.java正则表达式
2.基于模板获取网页内容
3.利用htmlparser解析html

五、中文分词介绍
1.Lucene自带的分词
2.ICTCLAS
3.IK
4.领域词识别

六、网页去重
1.网页去重的意义
2.网页去重的主要方法
3.什么是tf*idf
4.基于指纹算法的网页去重

七、Lucene4.6快速索引与搜索
1.如何用lucene创建索引
2.如何用lucene搜索结果
3.Lucene中intfield怎么搜索
4.Lucene的结果高亮显示

八、Lucene4.6索引的相关操作
1.创建索引
2.修改索引
3.删除索引
4.索引优化

九、Lucene4.6的query
1.TermQuery
2.BooleanQuery
各种query… …

十、Lucene的Filter及自定义排序
1.Filter
2.Lucene自带排序及指定权重
3.Lucene自定义排序

十一、Solr快速索引与搜索
1.什么是solr
2.为什么工程中要使用solr
3.Solr的原理
4.如何在tomcat中运行solr
5.利用solr进行索引与搜索

十二、Solr的查询及Filter
1.solr的各种查询
2.solr的Filter
3.solr的排序
4.solr的高亮

十三、Solr的facet介绍
1.solr的某个域统计
2.solr的范围统计

十四、Solrcloud集群搭建
1.zookeeper简介
2.solrcloud集群搭建

十五、搜索服务的工具封装
1.工厂模式
2.封装搜索服务_lucene
3.封装搜索服务_solr
4.封装工具,支持配置

十六、项目实战
1.项目需求分析及框架选择
2.Struts 2.3.16介绍
3.整合spring 4.0.1
4.整合hibernate 4.3.1
5. jquery-easyui 1.3.5
6.heritrix 在工程中的运用
7.搜索框架在工程中的运用
8.Flexpaper模仿百度文库
9.文件上传
10.相关代码编写
11.搜索结果优化
12.项目总结

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值