机器学习(四)最邻近规则分类

       最邻近规则分类英文名字是:K-Nearest Neighbor,简称为KNN。它是机器学习中比较简单的算法,它是Cover和Hart在1968年提出来的最初原型为临近算法,它最早用于分类,故它属于分类算法中的一种;输入是有基于实例的学习(Instance-based Learning)即它的学习是从输入的一些带有label标签的实例中得来的,它也称为懒惰学习(Lazy Learning)(因为开始时它并不需要建立任何的模型,在实例进行测试归类时才进行分类)。

       最邻近规则分类定义:就像它名字所说的一样,在一些样本中根据特征值的相似性把其中特征向量相邻最近的一些样本实例划分为一类,然后再来了一个新样本时根据特征值再和K个聚类的特征值进行比较,在这K个聚类的特征值中属于哪一类的多就属于哪一类。即“近朱者赤近墨者黑”的道理,由你的相似实例的特征向量推断出你的分类。核心思想是:如果一个样本实例在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

       举一个例子:在我们看电影时,判别电影是动作片还是浪漫爱情片,其中有一些实例样本,在这些实例样本中统计了两个特征向量:1接吻次数;2:打斗次数。见如下图所示:


        其中我们看到在前3个电影中打斗次数为3次、2次、1次;接吻次数为:104次、100次、81次;它被分为浪漫爱情片;在后3个电影中打斗次数为101次、99次、98次;接吻次数为10次、5次、2次;它被分为动作片;故来了第7个样本它的打斗次数为18次,接吻次数为90次,判断它是哪一种类型的电影;我们可以把机器学习中的最邻近规则分类算法应用于这个实例中,其中更为抽象的见下图:


        其中把7部电影分为7个样本,抽象简化为7个二维空间中的点:6个训练样本抽象简化为6个二维坐标上的点,1个测试样本抽象简化为1个二维坐标上的点;其中6个训练样本已经分类完毕,画在二维坐标平面上,x轴代表接吻次数,y轴代表打斗次数,其中A、B、C三点代表浪漫爱情片,D、E、F三点代表动作片;G点X轴接吻为90,Y轴打斗为18,然后在二维坐标平面上看G点离A、B、C三点浪漫爱情片近还是离动作片近,即可分出G点为哪一类电影。

       这个例子中我们以欧几里得距离来判断距离远近,选择参数K为5;进行判断G点属于哪一类:

      其中欧几里得距离定义为:


        故用Python实现为:

[python]  view plain   copy
  1. # coding:utf-8  
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 用于分类机器学习算法有很多种,以下是一些常见的算法: 1. 逻辑回归(Logistic Regression):适用于二分类问题,通过建立一个线性模型并应用sigmoid函数将结果映射到0-1之间,从而进行分类。 2. 决策树(Decision Tree):通过树状结构来表示决策规则,可以应用于多分类和二分类问题。 3. 支持向量机(Support Vector Machine):通过找到一个最优的超平面(分离边界)来区分不同类别,适用于二分类和多分类问题。 4. k近邻算法(k-Nearest Neighbors):通过找到最邻近的k个训练数据点来对测试数据进行分类,适用于多分类和二分类问题。 5. 朴素贝叶斯(Naive Bayes):基于贝叶斯定理,通过计算每个特征在不同类别下的概率来进行分类,适用于多分类和二分类问题。 6. 随机森林(Random Forest):通过建立多个决策树并采用投票的方式来进行分类,适用于多分类和二分类问题。 除此之外,还有很多其他的分类算法,不同的算法适用于不同的应用场景和数据集。 ### 回答2: 机器学习算法是一种通过从数据中学习规律并做出预测或分类的方法。用于分类机器学习算法可以将输入数据点分为不同的类别,这对于处理各种实际应用非常有用。 常见的用于分类机器学习算法包括支持向量机(Support Vector Machines, SVM)、朴素贝叶斯分类器(Naive Bayes Classifier)、决策树(Decision Trees)以及随机森林(Random Forests)等。 支持向量机是一种非常强大的分类算法,它通过将输入数据映射到高维空间,并找到能够将不同类别数据点最大程度分开的分割超平面。 朴素贝叶斯分类器基于贝叶斯定理,通过计算给定某个类别的先验概率和各个特征下的条件概率,来判断待分类数据点属于哪个类别。 决策树是一种通过构建类似于问题-答案的树形结构来分类数据的算法。通过逐步进行特征选择和切分,决策树可以将数据点划分到不同的类别。 随机森林是一种集成学习算法,它基于多个决策树进行分类。每个决策树都对数据集进行随机有放回抽样,并且在每个节点处使用随机子集特征进行切分,通过集体智慧来提高分类准确性。 以上只是一些常见的用于分类机器学习算法,每种算法都有其特点和适用领域。在实际应用中,根据问题的需求和数据的特点,选择合适的算法进行分类能够提高预测或分类的准确性和鲁棒性。 ### 回答3: 机器学习算法是一种通过数据和统计技术让机器自动学习和改进的方法。在机器学习中,分类是指将数据根据特定的属性分成不同的类别或标签。以下是常用于分类机器学习算法: 1. K近邻算法(KNN):基于样本相似度的算法,通过测量未知样本与已知样本之间的距离来进行分类。 2. 决策树算法:通过树状结构来将数据进行分类,通过一系列条件判断将数据逐层拆分,最终得出分类结果。 3. 朴素贝叶斯算法:基于贝叶斯原理,通过计算不同特征在给定类别下出现的概率来进行分类。 4. 支持向量机算法(SVM):通过选择一个超平面来将数据分割成不同的分类。 5. 逻辑回归算法:用于处理二分类问题,通过将输入的特征值与权重相乘,再通过一个非线性函数进行分类。 6. 随机森林算法:通过集成多个决策树来进行分类,通过对每个决策树的分类结果进行投票,得出最终的分类结果。 7. 神经网络算法:通过模拟神经元之间的连接和传递信息的过程,建立多层结构的神经网络来进行分类。 这些机器学习算法可以根据数据的不同特点和问题的需求进行选择和应用,从而实现对数据的有效分类和预测。同时,还有很多其他的机器学习算法可以用于分类,根据具体情况灵活选择适合的算法以及调优参数,可以提高分类的准确性和效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值