机器学习实战之K-近邻算法（一）

最新推荐文章于 2022-09-12 13:36:04 发布

小猫奇点

最新推荐文章于 2022-09-12 13:36:04 发布

阅读量244

点赞数

分类专栏：机器学习文章标签： j

本文链接：https://blog.csdn.net/sophiezjz/article/details/81539471

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

跟着《机器学习实战》书中代码进行实现时所踩的坑，给大家提个醒哈~

问题1

来源：从文本文件中解析数据
描述：classify0(inX, dataSet, labels, k)中，sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1), reverse = True)编译通不过，
报错：AttributeError: 'dict' object has no attribute 'iteritems'
解决办法：将函数中的classCount.iteritems()改成classCount.items()
原因：书中所用代码为python2，而我使用的是python3，python3中有改动

问题2

来源：使用k-近邻算法改进约会网站的配对效果-准备数据：从文本文件中解析数据
描述：file2matrix(filename)中，classLabelVector.append(int(listFromLine[-1]))编译不过
报错：ValueError: invalid literal for int() with base 10: 'largeDoses'
解决办法：将file2matrix('datingTestSet.txt')改成file2matrix('datingTestSet2.txt')，并保证file2matrix('datingTestSet2.txt')在对应目录下
原因：根据从网上下载的数据，对比datingTestSet.txt和datingTestSet2.txt中的数据，可知代码中导入的应该是datingTestSet2.txt，而datingTestSet.txt中的第四列是未作处理前的数据，有兴趣的可以自己写段脚本将第四列转换成标签，可得到datingTestSet2.txt中的内容

问题3

来源：使用k-近邻算法改进约会网站的配对效果-使用算法：构建完整可用系统
描述：classifyPerson()中，percentTats = float(raw_input("percentage of time spent plating video games?"))等多处含raw_input的地方都编译通不过，
报错：NameError: name 'raw_input' is not defined
解决办法：将函数中的raw_input改成input
原因：书中所用代码为python2，而我使用的是python3，raw_input是python2中用法，在python3中用input来替代它