【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

一、介绍最近邻搜索算法

1、1NN伪代码

 

2、knn伪代码

 

3、文档表示:word counts

 

4、文档表示:tf*idf

 

5、距离矩阵

最简单的比如:

加权重的特征:有些特征比较重要,则权重较大。

 

6、相似度计算

(1)矩阵乘法

为了避免长短文章问题,进行归一化。

 

(2)cosine

 

二、kd-tree

矩阵剪枝,对中小型维度的数据库比较有效。高维数据难处理。

 

NN搜索在kd-tree中:

剪掉大部分分支,在剩下的中求k最近邻。

 

三、测试:cosine相似度公式见题4

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值