复习总结

最新推荐文章于 2023-02-17 18:57:33 发布

a1184273397

最新推荐文章于 2023-02-17 18:57:33 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/a1184273397/article/details/103689663

版权

精确topK检索及其加速方法
一般步骤：对每个文档评分（余弦相似度），按照评分高低排序，选出前K个结果
加速方法：
快速计算余弦
堆排序法N中选K
不对所有文档的评分结果排序而直接选出TopK篇文档
提前终止计算
2.非精确topK检索

找一个文档集合A，K<|A|<<N，利用A中的topK结果代替整个文档集的topK结果
即给定查询后，A是整个文档集上近似剪枝得到的结果
上述思路不仅适用于余弦相似度得分，也适用于其他相似度计算方法。
也就是说尽量减少参与计算文档的数目
有以下五种策略：
索引去除
胜者表
静态得分
影响度排序
簇剪枝方法——预处理

索引去除：对于一个包含多个词项的查询来说，很显然可以只考虑那些至少包含一个查询词项的文档，进一步来看，
可以只考虑那些词项的idf值超过一定阈值的文档，（比如说cat in the rye,显然 in 和 the 的idf很小，可以去除含有低idf值的慈祥的文档非常多
或者只考虑包含多个查询词项的文档
胜者表：对于词典中的每个词项t，预先计算出r个最高权重的文档
词项t所对应的tf值最高的r篇文档构成t的胜者表
给定查询q，对查询q中所有词项的胜者表求并集生成集合A
根据余弦相似度大小从A中选取前topK个文档

静态得分：希望排序靠前的文档既是相关的又是权威的。
相关性通过余弦相似度得分来判断
权威性是与查询无关的文档本身的属性决定的，g(d),自己赋予
最终文档排名基于g(d)和相关度的线性组合
可以按照g(d)对倒排表排序，高分文档更可能在前面出现
影响度排序:
将词项t对应的所有文档d按照tft,d值降序排列(不同的文档对不同的t具有不同的顺序),在遇到每个词项时得分进行累加，即以词项为单位的得分计算(term-at-a-term),
有两种思路可以显著降低用于累加得分的文档数目
思路1：提前结束
思路2：词项按照idf降序排列

簇剪枝方法——预处理：

对于其他文档，计算和它最近的先导者，这些文档依附在一个先导者上面，称为追随者

3.链接分析排序算法

静态得分中，希望排序靠前的文档既是相关的又是权威的
从中引出对权威性计算的需要。
将整个静态Web看成是静态HTML网页通过超链接互相连接而成的有向图，其中每个网页是图的顶点，而每个超链接则代表一个有向边。
顶点和有向边集合称为Web图。
链接分析是指源于对Web结构中超链接的多维分析。

链接分析算法主要分为：
pagerank算法：强调链接数量与质量整体关系
HITS算法：强调权威页与中心页的相互增强关系（相关性）
山顶算法：强调链接与链接之间相关性与质量度
由pagerank算法和HITS算法融合

pagerank算法：
利用网页之间的超级链接，用于衡量特定网页相对于搜索引擎索引中的其他网页而言重要程序的算法。

随机游走模型：用于描述不稳定的移动，移动节点随机选择一个方向和速度来从当前位置移动到新的位置。是对直接跳转和间接跳转两种用户浏览行为进行抽象的概念模型。

入链接。在稳定状态下，每个页面都有一个访问概率，用这个概率作为页面的分数，直观的看，这些访问频繁的节点具有很多从其他频繁访问节点中指向的入链接。

pagerank的思路：在随机游走过程中访问越频繁的网页越重要。

pagerank核心思想：Vote
强调链接数量和连接质量的整体关系，从许多优质的网页链接过来的网页，必定还是优质网页的回归关系来判定所有网页的重要性。

反向链接数（单纯的意义上受欢迎度指标）
反向链接是否来自推荐度高的页面（有根据的受欢迎指标）
反向链接源页面的链接数（被选中的几率指标）

其中，PR(A)表示页面A的级别，页面Ti链向页面A，
L(Ti) 是页面Ti 链出的链接数量
d取值在0到1之间，d也称为阻尼系数，由于用户不可能无限的单击下去，常常因劳累而随机跳入另一个页面
1-d则是页面本身所具有的网页级别。
每一个页面设定的最小值是1-d
没有链入，也不为0

pagerank算法：大致分为两步：
首先根据网页之间的链接关系得矩阵
然后计算矩阵的平稳向量（特征值为1的特征向量）

HITS算法：（Hyperlink - Induced Topic Search)
超链导向的主题搜索
HITS算法专注于改善泛指主题检索的结果
在HITS算法中，对每个网页都要计算两个值：
权威值(authority)和中心值（hub)

和pagerank不同，pagerank算法中对于向外链接的权值贡献是平均的，也就是不考虑不同链接的重要性。而WEB的链接具有以下特征：
有些链接具有注释性，也有些链接是起导航或广告作用，有注释性的链接才用于权威判断
出于竞争因素考虑，很少有WEB网页指向其竞争领域的权威网页
权威网页很少具有显示的描述，比如Google主页不会明确给出WEB搜索引擎之类的描述信息。
可见平均的分布权值不符合链接的实际情况。、

权威网页中：
一个网页被多次引用，则它可能是很重要的；
一个网页虽然没有被多次引用，但是被重要的网页引用，则它可能是很重要的
一个网页的重要性被平均的传递到它所引用的网页
中心网页：
提供指向权威网页的链接集合的WEB网页
它本身可能不重要，或者说没有几个网页指向它
但是它提供了指向就某个主题而言最为重要的站点的链接集合
比如一个课程主页上的推荐参考文献列表

中心页和权威页之间是相互增强的关系
HITS算法，假设：
针对某一主题的好中心页会指向很多关于这个主题的权威页面
关于某一主题的权威页面会被很多针对这一主题的中心页指向
循环定义：导致可以迭代求解页面的中心值和权威值

子集传播模型：
基本思想：
把互联网网页按照一定规则划分，分为两个甚至是多个子集合。
通过给予子集合内的网页初始权值，通过链接关系，把权值传递出去
HITS步骤：
确定基本集：
给一个查询词，使用一个文本索引去除所有包含查询词的页面称为根集合
再在根集合中添加满足下面任一要求的页面
指向根集合中的一个页面
被根集合中的一个页面指向的页面
得到的集合称为基本集
对于基本集中的每一个页面x计算中心分和权威值分
重复迭代计算，迭代后按比例缩小，防止过大

pagerank算法和HITS算法比较
都是基于链接分析的额搜索引擎排序算法，并且在算法中两者都利用了特征向量作为理论基础和收敛性依据
HITS算法计算的权威值只是相对于某个检索主题的权重，而pagerank算法独立于检索主题。
HITS算法将权重分为权威值和中心值

4.Direct Hit算法
注重信息的质量和用户反馈的排序方法

搜索引擎将查询的结果返回给用户，并跟踪用户在检索结果中的点击。
如果返回结果中排名靠前的网页被用户点击后，浏览时间较短，用户又重新返回点击其他的检索结果，那么可以认为其相关度较差，系统将降低钙网页的相关性。动态排序

5.机器学习排序
Learning to rank
利用机器学习进行排序
人工标注训练数据
文档特征抽取
学习分类函数

方法分为以下3种：
单文档方法
PointWise Approach
损失函数评估单个 doc 的预测得分和真实得分之间差异
文档对方法
PairWise Approach
是判断任意两个文档组成的文档对<D0C1，D0C2>是否满足顺序关系
文档列表方法
ListWise Approach
搜索结果列表整体作为一个训练实例

单文档方法将训练集里每一个文档当做一个训练实例，文档对方法将同一个査询的搜索结果里任意两个文档对作为一个训练实例，文档列表方法与上述两种表示方式不同，是将每一个查询对应的所有搜索结果列表整体作为一个训练实例，这也是为何称之为文档列表方法的原因。

15.1 图像检索
15.2 颜色特征
15.3 纹理特征
15.4 形状特征
15.5 图像局部特征
15.6 图像检索算法
15.7基于CNN的图像检索系统

基于内容的图像检索CBIR
Content-based image retrieval
CBIR 的关键技术:图像特征提取和匹配
三种图像特征：颜色、形状、纹理
颜色特征的4种表示：
1、颜色直方图(Color Histogram)
2、颜色相关图(Color Correlogram)
3、颜色矩(Color Moment)
4、颜色一致性矢量(Color Coherence Vectors, CCV)
基于颜色特征的快速图片检索：
“感知哈希算法“ Perceptual hash algorithm
对每张图片生成一个"指纹”（fingerprint）字符串
特征
然后比较不同图片的指纹。结果越接近，就说明图片越相似
海明距离
均值hash算法
pHash算法
大津法

1. 均值Hash算法
第一步，缩小尺寸。
将图片缩小到8x8的尺寸，总共64个像素。
去除图片的细节，只保留结构、明暗等基本信息，摒弃不同尺寸、比例带来的图片差异。
第二步，简化色彩。
转为64级灰度。
第三步，计算所有64个像素的灰度平均值
第四步，比较像素的灰度。
将每个像素的灰度，与平均值进行比较。
大于或等于平均值，记为1；
小于平均值，记为0。
第五步，计算哈希值。
将上一步的比较结果，组合在一起，就构成了一个64位的整数，这就是这张图片的指纹

日本学者大津展之证明了，"类内差异最小"与"类间差异最大"是同一件事，
“大津法”（Otsu’s method）。下面就是他的计算方法。
灰度值小于阈值的像素为 n1 个，
大于等于阈值的像素为 n2 个
w1 和 w2 表示这两种像素各自的比重
w1 = n1 / n
类内差异 = w1(σ1的平方) + w2(σ2的平方)
类间差异 = w1w2(μ1-μ2)^2

纹理特征一共有4个途径（来源）：结构纹理分析、统计纹理分析、模型纹理分析、信号处理纹理分析
基于统计特征的纹理特征提取：
灰度差分统计法（知道名字即可）
基于灰度共现矩阵的纹理特征
常用统计量：对比度、相关度、方差、熵等
多尺度：改变方向和步长生成不同尺度的共现矩阵
Tamura等定义的6个心理学特征
分别对应于心理学角度上纹理特征的六种属性：
对比度(contrast)、粗糙度(coarseness)、方向性(directionality)对于图像检索尤为重要。
线像度(1ine likeness)、规整度(regularity)和粗略度(roughness)。
信号处理纹理分析知道有几个方法：
傅立叶频谱法
Gabor纹理：最优的窗口傅里叶变换
小波变换：窗口可大可小
LBP

特点：
对光照具有不变性。
具有旋转不变性
灰度不变性等
会因为“位置没有对准”而产生很大的误差。
构造：以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。
应用：人脸识别
基于轮廓的形状特征描述：
链码
傅立叶描述子
网格（大津法）
距离直方图
边界矩
基于区域的形状特征描述
局部特征
HOG特征描述
SIFT特征描述算子
LBP算子

1.HOG特征
方向梯度直方图
Histogram of Oriented Gradient, HOG
一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。
通过计算和统计图像局部区域的梯度方向直方图来构成特征。
Hog特征结合 SVM分类器已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。
2.HOG特征提取算法的实现过程
1）灰度化
将图像看做一个x,y,z（灰度）的三维图像）；
2）采用Gamma校正法对输入图像进行颜色空间的标准化（归一化）；
目的是调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时可以抑制噪音的干扰；
3）计算图像每个像素的梯度
包括大小和方向
是为了捕获轮廓信息，
同时进一步弱化光照的干扰。
梯度图
4）将图像划分成小cells
例如66像素/cell；
5）统计每个cell的梯度直方图
目的是为局部图像区域提供一个编码，
同时能够保持对图像中人体对象的姿势和外观的弱敏感性。
采用直方图来统计cell的梯度信息
每个cell为66个像素。
假设我们采用9个bin的直方图来统计这66个像素的梯度信息。
像素梯度方向
将cell的梯度方向360度分成9个方向块
例如：如果这个像素的梯度方向是20-40度，直方图第2个bin的计数就加一，
梯度大小
梯度大小就是作为投影的权值的。
例如说：这个像素的梯度方向是20-40度，然后它的梯度大小是2（假设啊），那么直方图第2个bin的计数就不是加一了，而是加二（假设啊）。
6）将每几个cell组成一个block
例如33个cell/block
一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor。
7）将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image（你要检测的目标）的HOG特征descriptor了。。

3.SIFT特征
尺度不变特征转换
Scale-invariant feature transform或SIFT
在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量。
应用范围
物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对
SIFT是一种检测局部特征的算法
SIFT中每个feature需要用128维的向量来描述，因此计算量相对很大。
通过求一幅图中的特征点（interest points,or corner points）及其有关scale 和 orientation 的描述子得到特征
SIFT特征不只具有尺度不变性，即使改变旋转角度，图像亮度或拍摄视角，仍然能够得到好的检测效果
Hog没有旋转和尺度不变性

4.SIFT算法大致分为四个步骤：
步骤一：建立尺度空间
即建立高斯差分(DoG)金字塔
步骤二：在尺度空间中检测极值点，并进行精确定位和筛选
步骤三：特征点方向赋值，
完成此步骤后，每个特征点有三个信息：位置、尺度、方向
步骤四：计算特征描述子

5.图像检索算法
基于内容的图像检索(Content-based Image Retrieval, CBIR)方法利用从图像提取的特征来进行检索。
低级图像特征主要有颜色、纹理和形状，
低级图像特征包括局部特征和全局特征。
全局描述符基于整幅图像提取的描述符
全局特征对图像的压缩率较高，但区分力不强
局部特征是基于图像的某个区域提取的图像描述符
如尺度不变特征SIFT(Scale Invariant Feature Transform)。
局部特征的区分力强，但数目太多

图像检索领域：将局部特征表示成全局特征的编码
通常继承了局部特征的部分不变性，如对平移、旋转、缩放、光照和遮挡等与语义相关不大的因素保持不变

6.编码本的训练 encoding
三种非常经典的方法
1）BoW (Bag of visual word) BOF
2）VLAD (Aggregating local descriptors)局部聚合向量(重点，切记)
3）FV (Fisher Vector)

7.BOF图像检索算法流程：
1.用surf算法生成图像库中每幅图的特征点及描述符。
surf算法是关键点计算和描述算法，作用和SIFT相似。
2.再用k-means算法对图像库中的特征点进行训练，生成类心。
3.生成每幅图像的BOF，
判断图像的每个特征点与哪个类心最近，最近则放入该类心，最后将生成一列频数表，即初步的无权BOF（直方图向量）。
4.通过tf-idf对频数表加上权重，生成最终的bof。
因为每个类心对图像的影响不同。比如超市里条形码中的第一位总是6，它对辨别产品毫无作用，因此权重要减小。
TF/IDF
5.对查询图像也进行3.4步操作，生成该图的直方图向量BOF。
6.将查询图像的Bof向量与图像库中每幅图的Bof向量计算相似度
求夹角余弦。
基于SIFT局部特征的BOF模型非常适合于做Object retrieval