0415学习笔记：实施kNN算法

最新推荐文章于 2022-10-14 17:01:57 发布

RainbowCoral

最新推荐文章于 2022-10-14 17:01:57 发布

阅读量196

点赞数

分类专栏： MLiA学习笔记

MLiA学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

def classify0(inX, dataSet, labels, k): #inX is input vector, dataSet is training set 用于分类的输入向量是inX，输入的训练样本集为dataSet，标签向量为labels，最后的参数k表示用于选择最近邻居的数目
    dataSetSize = dataSet.shape[0] #返回行数
    diffMat = tile(inX, (dataSetSize,1)) - dataSet #tile创建datasetsize维数组
    sqDiffMat = diffMat ** 2
    sqDistances = sqDiffMat.sum(axis=1)#axis=1表示按行相加
    distance = sqDistances ** 0.5
    sortedDistIndicies = distance.argsort()#数据按照从小到大的次序排序,argaort返回排序后元素在原对象中的下标
    classCount = {} #建立label：label出现次数字典
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(),
                              key = operator.itemgetter(1),reverse = True)
#将classCount字典分解成元组列表，然后使用程序第二行导入运算符模块的itemgetter方法，按照第二个元素的次序对元组进行排序
    return sortedClassCount[0][0]

##k-近邻算法是基于实例的学习，使用算法时必须有接近实际数据的训练样本数据。

#k-近邻算法必须保存全部数据集，如果训练数据集很大，必须使用大量的存储控件。此外，由于必须对数据集中的每个数据计算距离值，实际使用时可能非常耗时。

#k-近邻算法的另一个缺陷是它无法给出任何数据的基础结构信息，因此我们也无法知晓平均实例样本和典型实例样本具有社么特征

测试数据所在分类

kNN.classify([0,0],group,labels,3)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

RainbowCoral CSDN认证博客专家 CSDN认证企业博客

码龄7年

20: 原创

3736: 周排名

133万+: 总排名

6万+: 访问

: 等级

451: 积分

3949: 粉丝

69: 获赞

5: 评论

123: 收藏

私信

关注

分类专栏

最新评论

LaTex错误解决方法——File `xx.sty‘ not found. \renewcommand
qq_41057954: 解决了，太好了！
matlab中libsvm工具箱“svmtrain has been removed. Use fitcsvm instead.”问题解决记录
RainbowCoral: 抱歉才看到。你看按我参考的那个链接里的方法操作可行吗？
matlab中libsvm工具箱“svmtrain has been removed. Use fitcsvm instead.”问题解决记录
Liu红药: 照您说的，改了函数名，也添加了路径，怎么还出现下面这种问题？求指导，谢谢！在当前文件夹或 MATLAB 路径中未找到 'libsvm_svmtrain'，但它位于: D:\Program Files (x86)\Matlab R2018b\toolbox\libsvm-3.24\matlab 更改 MATLAB 当前文件夹或将其文件夹添加到 MATLAB 路径。出错 main (line 42) cg(i,j) = libsvm_svmtrain(train_label,Train_matrix,cmd);
0413学习笔记：实施kNN算法过程中的一些小问题
RainbowCoral: 使用k-近邻算法改进约会网站的效果和手写识别系统.在数据分析--matplotlib创建散点图时直接调用下面函数： datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')会出现如下错误： FileNotFoundError: [Errno 2] No such file or directory: 'datingTestSet2.txt' 故解决方法是指定到当前路径，有两种方法：第一，datingDataMat,datingLabels = file2matrix(r'C:\Users\Administrator\Desktop\k-近邻算 \datingTestSet2.txt') 第二，import os os.chdir(r"C:\Users\Administrator\Desktop\k-近邻算法") #切换路径
0413学习笔记：实施kNN算法过程中的一些小问题
RainbowCoral: import os print os.getcwd() #打印出当前工作目录 os.chdir('the dir which include the file a.txt') #修改当前工作目录

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。