空间数据
多媒体数据
例:图像数据
基于描述的检索系统:关键字,标题,尺寸等
基于内容的检索系统:颜色构成,纹理,形状,对象和小波变换等。
时序数据和序列数据
趋势分析
长期变化(长期趋势)
循环变化(周期变化,如果有的话)
季节性变化
非规则变化
文本数据库挖掘
潜在语义标引
通过潜在语义标引减少词频矩阵的大小,核心技术是奇异值分解。具体步骤如下:
1 建立词频矩阵,frequency_matrix.
2 计算frequency_matrix的奇异值分解,方法是把矩阵分裂为三个小的矩阵U,S,V。其中U和V是正交矩阵,S是奇异值的对角矩阵。矩阵S的大小为K×K。
3 对每一个文档d,用派出了SVD中消除的词的新向量替换原有的向量。
4 保存所有向量的集合,用高级多维索引技术为其创建索引。