引子-信息检索

    信息检索是用来处理文本数据的技术,信息检索领域的传统模型是海量的数据被组织成具有一定形式的文档。用户通过交互界面输入查询关键词,系统在后台为用户执行查询操作,生成准确的符合要求的查询结果。

    信息检索和数据库技术并行发展,但与数据库查找有着本质的区别,信息检索利用查准率与查全率来衡量检索的结果。

 

一、基于关键字的查询

    文档被看成字符串,通过关键字进行匹配,简单的查询用此方法即可查到结果,但是由于文字的特殊性,中文有很多词语,字存在多义现象,所以必须解决多义词问题。

    另一个难点是,中文还存在同义词,多个词语有一个意思,所以这叫同义词问题

二、基于相似性的检索

   某些信息检索系统允许基于相似性的检索。这时,用户可给系统一个文档A,然后要求系统找出与A“相似”的文档。两个文档的相似性可以自定义,如根据一组共同的关键词作为相似性。

三、文档索引

    一个高效的索引结构,对于信息检索系统查询的高效处理是十分重要的。系统可以采用倒排索引定位,包含关键词的文档。倒排索引是一种索引结构,它包含两个索引表:文档表和词表。

                            多媒体检索

    多媒体分析检索有四个主要步骤:多媒体特征提取、多媒体数据流分割、多媒体数据分类和多媒体数据索引结构的构造与检索。在多媒体中,可以同时存在不同媒质数据,如视频、图像、音频、三维图形和字幕等, 因此能够从每种媒质中提取不同特征。

一、视频内容结构化

    视频结构化过程即是对视频流中的连续帧序列进行切分,把一个连续视频流按其内容展开的不同,将它分成若干语义段落单元。视频流的结构化方法能够从一部很长的视频中抽象出视频内部隐含的情节发展结构,它为大数据量视频的导航和浏览提供了一种非常好的手段。—般来说,在视频结构化过程中,可以把连续视频流分割成包括镜头、组和场景等视频单元。 

二、视频检索

基于内容的音频检索

    由于在多媒体数据流中,音频信号同样包含了丰富的语义信息,正确识别出音频信号中所蕴涵的语义后,从而用音频来索引其相应的多媒体视频信息。 

    音频数据自己也可成为检索对象,如寻找相似的音乐和在电影中寻找某个的声音等。与视频检索类似,在音频检索中,也需要经过特征提取、音频分割、音频识别分类和索引检索这几个关键步骤。

                           数据挖掘技术
1、什么是数据挖掘
 
    数据挖掘就是对数据库(数据仓库)中蕴涵的、未知的、非平凡的、有潜在应用价值的模式(规则)的提取。
    数据挖掘就是从大型数据库(数据仓库)的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息。
 
    因此,我们认为数据挖掘必须包括三个因素:
    数据挖掘的本源:大量、完整的数据
    数据挖掘的结果:知识、规则
    结果的隐含性:因而需要一个挖掘过程。
 
    数据挖掘中用一些基本概念进行建模,例如模式、知识、置信度、兴趣度、有效性、非频繁性。
置信度是指知识为真的程度,兴趣度是指为真的知识被用户关注的程度。
 
2、常用挖掘方法
    目前一般常用的数据挖掘方法很多,它们大多属于数学统计方法或人工智能中的机器学习算法,以及人工神经网络/遗传算法等。
还有以下基础算法:
用于特征规则挖掘的方法
面向属性归约方法
数据立方方法
关联规则挖掘
序列模式分析
分类分析
聚类分析
 
3、数据仓库与数据库
 
    数据仓库的特点是:面向主题、数据集成、随时间变化、数据不易丢失。
    数据仓库构建:数据清理,数据集成,数据转换。
    数据仓库应用体系结构:集成、转换、发布、存取。
 
4、web挖掘
 
5、空间数据挖掘
 
6、分布式数据挖掘
 
7、音频信号数据挖掘