K最邻近算法和局部敏感哈希LSH

最新推荐文章于 2021-07-13 17:35:06 发布

ZhikangFu

最新推荐文章于 2021-07-13 17:35:06 发布

阅读量2k

点赞数

分类专栏：机器学习基础

本文链接：https://blog.csdn.net/ZhikangFu/article/details/46683593

版权

本文介绍了K最近邻(k-Nearest Neighbor)分类算法，包括算法特点、伪代码和Python实现。接着，详细阐述了局部敏感哈希（LSH）的概念，解释了其基本思想和哈希桶的原理，并给出了LSH在数据近邻查找中的应用。最后，讨论了LSH与KNN算法结合的Python实现，使用Cosine distance计算向量相似度。

摘要由CSDN通过智能技术生成

1. K最近邻(k-Nearest Neighbor)分类算法

采用测量不同特征值之间的距离方法进行分类。
K近邻分类算法的主要思想：如果一个样本在特征空间中的k个最相似）的样本中的大多数属于某一个类别，则该样本也属于这个类别(这里对于最相似的判定主要是通过特征值向量的距离)

1.1. 算法特点及伪代码

KNN算法中，所选择的邻居都是已经正确分类的对象(训练集)
KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。
当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数

伪代码描述

     
     
     
      
      
      1. 计算已知类别数据集中的点与当前点之间的距离
     
     
     
     
     
     
      
      
      2. 按照距离递增次序排序
     
     
     
     
     
     
      
      
      3. 选取与当前点距离最小的k个点
     
     
     
     
     
     
      
      
      4. 确定前k个点所在类别的出现频率
     
     
     
     
     
     
      
      
      5.返回前k个点出现频率最高的类别作为当前点的预测分类

1.2. Python实现

这篇博文写的有些匆忙, 如果以后有时间的话, 我会进行重新整理

特征抽取, 对于每个类别的文本进行特征抽取, 获取特征词集合, 用于匹配测试文本, 生成特征向量

     
     
     
      
      
      def extract_feature() :
     
     
     
     
     
     
      
      
          text = 
      
      
      ""
     
     
     
     
     
     
      
      
          post_set = []; class_set = []; feature = []
     
     
     
     
     
     
      
      
          jieba.analyse.set_stop_words(
      
      
      "stop_word.txt")
     
     
     
     
     
         
      
      
      for index 
      
      
      in range(len(dict_list)) :
     
     
     
     
     
             
      
      
      with open(
      
      
      "./lily/" + dict_list[index] + 
      
      
      ".txt", 
      
      
      "r") 
      
      
      as my_file :
     
     
     
     
     
                 
      
      
      #读入每个板块所有的帖子            
     
     
     
     
     
                 
      
      
      for post 
      
      
      in my_file : 
     
     
     
     
     
     
      
      
                      post_set.append(list(jieba.cut(post, cut_all = 
      
      
      False))) 
      
      
      #将post字符串存入list
     
     
     
     
     
     
      
      
                      class_set.append(index)