《AI图像搜索引擎》笔记
第1章 从文本搜索到图像搜索
1.1 文本搜索引擎的发展
- 1998年斯坦福学生Larry Page和Sergey Brin创立Google
- PageRank算法极大提高了搜索结果相关性,几乎垄断了全球搜索引擎市场
1.2 文本搜索引擎的结构和实现
-
文本预处理 = 分词(标点+去停词) + 语言处理(Stemming/Lemmatization)
- 词干提取 eg. -tional -> -tion 词形还原 eg. reading -> read
-
建立索引 = 生成词典 + 词语排序 + 生成文档倒排表
- Node(Term, k) -> Node(Doc_1,freq_1) -> …… -> Node(Doc_k,freq_k)
-
搜索 = 合并链表 + 增删节点
-
相关性排序
词 频 率 ( T e r m F r e q u e n c y , t f ) : 某 一 文 档 里 的 词 频 文 档 频 率 ( D o c u m e n t F r e q u e n c y , d f ) : 包 含 词 语 的 文 档 个 数 定 义 词 语 在 文 档 中 的 权 重 : W t , d = t f t , d × l o g ( n d f t ) 将 查 询 语 句 也 看 作 一 个 小 的 文 档 q ⃗ = Q r y V e c t o r = ( W q 1 , W q 2 , . . . , W q n ) d ⃗ = D o c V e c t o r = ( W d 1 , W d 2 , . . . , W d n ) S i m i l a r i t y ( q ⃗ , d ⃗ ) = c o s ( q ⃗ , d ⃗ ) 词频率(Term Frequency, tf):某一文档里的词频\\ 文档频率(Document Frequency, df):包含词语的文档个数\\ 定义词语在文档中的权重:W_{t,d}=tf_{t,d}×log(\frac{n}{df_t})\\ 将查询语句也看作一个小的文档\\ \vec{q}=QryVector=(W_{q1},W_{q2},...,W_{qn})\\ \vec{d}=DocVector=(W_{d1},W_{d2},...,W_{dn})\\ Similarity(\vec{q},\vec{d})=cos(\vec{q},\vec{d}) 词频率(TermFrequency,tf):某一文档里的词频文档频率(DocumentFrequency,df):包含词语的文档个数定义词语在文档中的权重:Wt,d=tft,d×log(dftn)将查询语句也看作一个小的文档q=QryVector=(Wq1,Wq2,...,Wqn)d=DocVector=(Wd1,Wd2,...,Wdn)Similarity(q,d)=cos(q,d)
1.3 搜索引擎的一般结构
1.4 从文本到图像
人工标注索引;以图查图;神经网络算法;AlexNet以84.7%正确率在ImageNet夺冠
Google 百度 TinEye 淘宝