WEB搜索课程总结

最新推荐文章于 2020-10-11 20:49:49 发布

wanli0000

最新推荐文章于 2020-10-11 20:49:49 发布

阅读量1.2k

点赞数 1

分类专栏：笔记文章标签：数据挖掘算法聚类大数据

本文链接：https://blog.csdn.net/qq_41837950/article/details/106543674

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

WEB搜索课程总结（考研复试

这门课学什么？

1：搜索引擎原理
2：图像搜索、语音搜索
3：web挖掘、信息推荐

主要内容

1导论：
2检索：文本检索（重点）、图像检索、音频检索
3信息过滤
4信息推荐
5发展前沿

一：导论

Web搜索的定义：在www上检索、过滤、推荐信息

检索:由用户提出查询需求，系统根据这个需求对Web信息进行查询并给出结果。
过滤:系统根据预先设定的条件，对Web中与该条件相符的信息进行提取、隔离或封堵。例如，情报侦听、垃圾邮件过滤、黄色图像过滤。
推荐:是系统将用户需要的重要信息从大量的一般信息中提取出来，并主动推荐给用户。
谈web搜索，绕不开搜索引擎。按其工作方式，分三类：
全文：匹配相关记录
目录索引：按目录分类
元：在接受用户查询请求时，同时在其他多个引擎上进行搜索

Web搜索的挑战性：略

Web搜索的科学价值：
搜索时兼顾信息的客观性和主观性，同一文档对不同人的信息量可能不同。

Web搜索的研究状况：略

二：搜索引擎体系概述

文本信息>视频、音频信息，文本检索的理论体系支撑起整个web搜索领域。
主要包括：web信息采集、文本组织索引、文本内容表示、用户查询方法、相关文本排序、文本聚类、文本分类等。
重点：
文本的采集、组织和整理
搜集文档相关度排序
文本聚类、分类，提高系统质量和效率
架构框图 信息采集子系统：爬虫，自动收集网页
内容索引子系统：索引器———对收集回来的网页进行分析，提取相关网页信息。根据算法提取关键词、存到数据库供索引用。
变文本、打索引、存起来
工作流程其中网页的文本都是压缩保存。
文本索引词汇索引，流行用倒排文件（词汇表、位置表（占空间大头）1词汇表找词 2位置表找地址 3根据各查询词的地址列表计算需要检索或段落的指针。
倒排流程 内容检索子系统：检索器——根据用户查询、在索引库检索，给出相关性评价，按评价结果排序。同时也会对相关性反馈。
链接结构分析子系统：超链接、评价网页质量

三：数据采集子系统

网页采集系统体系结构
在这里插入图片描述采集子系统：采集URL并组装plain-html页面、压力控制
选取子系统：决策采集的对象和顺序
过滤子系统：低价值page/link挖掘和控制、资源增长趋势、成本和效益估算

网页采集系统设计
采集前端：http协议、异步好并发、ＤＮＳ预解析、压力控制
链接调度：链式反应：以种子站点作为链接自我膨胀的起点。累积式采集：定期从种子出发开始扩散、完全替换。增量式采集：动态维护现有网页集合，在原来的基础上对新增和变化网页进行收集。
重复与低质量检测：空页错页、功能性界面（登录界面）、失效界面
链接去重策略：Bloom Filter算法
网页解析

正则表达式：略，看菜鸟教程吧

四：内容索引子系统

什么用?:
完成从文本内容到词项的转换
提供高效、准确的索引查询服务
高效利用系统资源完成信息存储

词项(Term)的获取
如何分词？分词就是将连续的字序列重新组合成词序列的过程（中文）
索引的数据结构
索引的并行存储结构
按文档分桶
按词项分桶
索引系统运行方式
文档预处理
索引建立
性能优化：索引压缩
性能优化：缓存服务器
开源索引系统

五：内容检索子系统

文本信息检索模型
文件检索的本质：根据用户提出的需求，从文本集中找出最相关的文档
用户如何提出需求？
相关性计算？
检索结果反馈？

布尔模型(Boolean model)
真假布尔表达式
二元决策，最常用，但不能单纯用boolean模型

向量空间模型(Vector space model)
利用索引词出现的绝对和相对频度，对索引词赋予非二值的权重来表达文档和查询，
从而使得它们之间的相关性成为一个连续的度量指标。
文本集中每个不同的索引词构成向量空间的一个维度。这样，所有m个不同的索引词便构成了m维的特征向量。
向量相似度计算的方法
索引词的权重计算

概率模型(Probabilistic model)
用概率计算相似度

网页排序
排序依据(ranking evidence)
查询内容与网页内容相似度
网页质量评估----超链接分析、网页内容评估
用户偏好情况----基于用户的点击行为改进检索结果
竞价排名情况----植入广告,付费的页面提前
合并排序依据

六：链接分析子系统

干什么？：
页面质量评估
分析扩充文档描述内容
PageRank算法设计及实现
HITS算法设计及实现

七：多媒体信息检索

图像检索

从实现方法上，有两种：
关键词查询:采用现有的文本检索的技术架构，但先要对图像进行文本标注。
示例查询:提交基于视觉特征的准确的查询请求，但提交查询不够方便，匹配算法的计算量大,常用哈希方法。
关键词：
特征提取
文本自动标注：自动地对图像中包含的各种物体进行标注，甚至能够标注其中包含的抽象概念
图像快速检索——图像hash技术
用一个hash值（反应内容）代表一个图像
每个不同图像的hash值尽量不同
对于同一图像内容（可能有细微变化），hash值相同
基本算法：
平均哈希算法（aHash） 略
感知哈希算法（pHash） 略
差异哈希算法（dHash） 略

视频检索

这个没咋讲：
视频检索已成为一个与图像检索相对独立的技术领域
视频：帧（静态图像）的序列，其切分和组织方法：
1,物理层次:镜头切分,同一地点连续拍摄的视频帧的序列为一个镜头
2,语义层次:场景或故事为单位，但往往依赖于镜头切分。

音频检索

两种模式：基于示例、基于关键词
语音类音频检索的自然策略:
1语音识别—>文本检索，全文的转换或关键词的转换
2直接基于声学特征进行检索

非语音音频检索：如音乐、鸟鸣、狗叫、虎啸、马达声等无法通过语音识别的方法进行文本标注，可用机器学习的方法建立声学模型与语义模型之间的联系。
分类的性能主要取决于声学特征的选取

哼唱检索：通过接收用户哼唱的一段音乐(歌曲或乐曲)片段来对数据库中的音乐进行检索
QBE:哼唱查询(Query by Humming)
旋律的表示和提取：
用3级或5级音高轮廓线表示旋律
自相关函数法
查询与索引的匹配：哼唱不准，容错，有弹性。
面向3级轮廓线的递归式最小编辑距离计算方法
匹配度从高到低的顺序反馈

八：信息过滤

信息检索：被检索的文档相对稳定、用户查询需求不同
信息过滤：信息资源动态变化、用户需求相对固定
从本质上讲，信息过滤是“流环境”下的二元分类问题，以模式分类为技术核心，高效高精度地处理数据流。
1) 分类器的选择
8.2 基本方法
8.2.1 Bayes分类器
Bayes分类器在理论上可以达到最小分类错误率，但前提是准确估计各类别的先验概率及其条件分布函数
8.2.2 向量距离分类器
向量距离(相似度)分类器可以看作是Bayes分类器的简化，它用各类别数据的均值向量、方差向量、协方差矩阵等参数近似描述它们的分布特性，利用向量之间的各种距离或相似度公式进行分类。
欧氏距离、城市街区距离、马氏距离、简化马氏距离
欧氏距离与Bayes是等价
城市街区距离Dc直接用直角几何距离来简化对直线几何距离Dg的近似
马氏距离与Bayes的关系
假设各个类别的先验概率都相同
假设P(x|ci)为Gauss分布，不要求x的各维之间相互独立且所有的分布具有相同的方差
简化马氏距离
假设各个类别的先验概率都相同
假设P(x|ci)为Gauss分布，且x的各维之间相互独立。不要求方差相同。
所有距离测度都可以看成是在特殊条件下对Beyes分类器决策准则的近似。
8.2.3 k近邻分类器
最大特点是不需要训练类别模型，而是按某种合理的比例从各类别中抽取样本，用所有抽出的样本构成分类器的总体特征样本。
8.2.4 SVM
以结构风险最小化为目标的一种二元分类器。
8.2.5系统性能评价
分类器的精度和速度
准确率
召回率
F-measure
break-even点
2) 分类器的学习及优化
8.3 模型学习
对过滤的信息建立很好的描述模型，即分类器用来描述类别的概率模型。
8.3.1 生成式与区分式学习
Bayes、向量距离等分类器采用生成式学习算法
每个类模型只用本类的样本进行估计，估计的准则是使模型产生这些训练样本（总体）的可能性最大。
SVM等分类器采用区分式学习算法
8.3.2 降维变换
需要进行学习的降维变换是指变换核（基函数）随被处理数据集变化以获得最佳变换效果的变换，因此它们也常被称为自适应变换。
常见的降维变换：
主成分分析PCA(Principal Component Analysis)
独立成分分析ICA(Independent Component Analysis)、
线性鉴别分析LDA(Linear Discriminative Analysis)、
Hilbert-Huang变换
8.3.3 半监督学习
手工标注少量数据，就可以较准确地对全部数据进行自动标注，为之后的模型学习提供丰富的数据。
三大类：
第一类是从聚类算法发展而来的基于限制条件的半监督聚类算法，
该类算法在聚类过程中利用已标注的数据来引导聚类。
第二类是从经典监督学习中演进而来的，典型代表是自学习算法。
该算法在对标注样本进行学习之后，首先处理那些有较高置信度的未标注样本，然后迭代地把这些估计加入到标注样本集中
第三类是基于图的算法。该类算法将数据看作图上的结点，
将数据间的(已知的)相似性看作结点间的初始边长(权重)，应用图的理论对数据进行聚类。
8.3.4 演进式学习
3) 垃圾信息过滤系统
8.4 垃圾邮件及垃圾短信过滤
基于内容识别，文本分类器是核心。
8.4.1 垃圾邮件过滤系统
8.4.2 垃圾短信的过滤
4) 话题检测与追踪(TDT)系统
8.5 话题检测与追踪（TDT）系统
8.8.1 报道分割
8.8.2 事件检测
8.8.3 事件追踪
小结：信息过滤主要特征：用户的需求相对固定，而信息源是流动变化的。
在信息过滤系统中，较少有与用户的交互，因此相比检索系统而言要求有更高的搜索(分类)精度。
信息过滤系统有十分重要的应用价值。目前常见的系统包括垃圾邮件/垃圾短信过滤、热点话题检测与追踪、新产品信息过滤等。
信息过滤系统的核心技术是能够同时保证精度和速度的高性能分类器，因此特征抽取及降维、类模型学习等便成为需要解决的关键问题。

九：信息推荐

信息资源动态变化。用户的需求不确切，只能通过历史数据和相关数据进行挖掘(预测)
信息推荐技术主要分为基于内容和基于关联两类。
基于内容：对用户和商品描述建模，比较近似度来推荐。有点想检索技术
基于关联：不需要任何关于用户或商品的描述信息，
而是通过历史上的交易或评价数据挖掘用户之间、商品之间、用户-商品之间的关联性，
进而预测用户对商品的态度。

9.2 关联规则挖掘的基本算法
挖掘用户需求和兴趣进而进行信息推荐
9.2.1 基本定义
9.2.2 Apriori 关联规则挖掘算法
9.2.3 基于FPT的算法
9.3 可信关联规则及其挖掘算法
9.3.1 相关定义
9.3.2用邻接矩阵求2项可信集
9.3.3由k项可信集生成(k+1)项可信集
9.3.4基于极大团的可信关联规则挖掘算法MaxCliqueMining
9.4基于FPT的超团模式快速挖掘算法
9.4.1 相关定义
9.4.2 基于FPT的超团模式和极大超团模式挖掘
9.5 协同过滤推荐的基本算法
通过他人对某一商品已知的需求来预测一个用户对该商品未知的需求。
基本原则是历史上的需求类似，则当前的需求也类似。
算法的核心：通过历史数据找出与被预测用户有类似需求的用户(组)。
分基于用户(User based)和基于项目(Item based)两大类
小结：
信息推荐系统是在用户需求不确知的情况下为其搜索并推送有用的信息，
因此与信息检索和信息过滤均不相同。
其主要难度集中在用户需求的预测和推算上，而这常常只能通过稀疏的历史数据完成。
关联规则挖掘和协同过滤是预测用户需求的两类有效算法。
其基本算法并不复杂，目前的研究主要集中在提高算法的精度和效率上。

wanli0000

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
WEB搜索课程总结

WEB搜索课程总结（考研复试这门课学什么？1：搜索引擎原理2：图像搜索、语音搜索3：web挖掘、信息推荐主要内容1导论：2检索：文本检索（重点）、图像检索、音频检索3信息过滤4信息推荐5发展前沿一：导论Web搜索的定义：在www上检索、过滤、推荐信息检索:由用户提出查询需求，系统根据这个需求对Web信息进行查询并给出结果。过滤:系统根据预先设定的条件，对Web中与该条件相符的信息进行提取、隔离或封堵。例如，情报侦听、垃圾邮件过滤、黄色图像过滤。推荐:是系统将用户需要的重要信息
复制链接

扫一扫