《数据挖掘概念与技术》学习笔记第9-10章_复杂数据类型的挖掘+数据挖掘的应用和发展趋势(9/10)+(10/10)

空间数据

多媒体数据

         例:图像数据

                   基于描述的检索系统:关键字,标题,尺寸等

                   基于内容的检索系统:颜色构成,纹理,形状,对象和小波变换等。

时序数据和序列数据

         趋势分析

                   长期变化(长期趋势)

                   循环变化(周期变化,如果有的话)

                   季节性变化

                   非规则变化

文本数据库挖掘

         潜在语义标引

                   通过潜在语义标引减少词频矩阵的大小,核心技术是奇异值分解。具体步骤如下:

                   1 建立词频矩阵,frequency_matrix.

2 计算frequency_matrix的奇异值分解,方法是把矩阵分裂为三个小的矩阵U,S,V。其中UV是正交矩阵,S是奇异值的对角矩阵。矩阵S的大小为K×K

3 对每一个文档d,用派出了SVD中消除的词的新向量替换原有的向量。

4 保存所有向量的集合,用高级多维索引技术为其创建索引。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值