Python3玩转机器学习第四章笔记

weixin_36322993

于 2020-11-20 17:37:00 发布

阅读量99

点赞数

文章标签： python 机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36322993/article/details/109856129

版权

第四章笔记 - kNN- k近邻算法（k-Nearest Neighbors）

算法思想：在一个散点分布的数据中，取出k个与新传入数据最近的点，以这些点中属于某种样本最多的点为该数据的target
调参：指调超参数，而不是模型参数
可通过网格搜索，GridSearich。

不同距离计算公式：
曼哈顿距离
欧拉距离
明可夫斯基距离

feature scaler

对每一个特征：

最值归一化

 (x - np.min(x)) / (np.max(x) - np.min(x))

均值方差归一化

X = (X - np.mean(X)) / np.std(X)

Note: 对训练数据集做归一化，并且用训练数据集的归一化方式来对测试数据集和预测数据进行一样的归一化。
（对X_train做了归一化，一定要对X_test也做归一化）

总结及一些思考：

k近邻算法既能解决分类问题，也可以解决回归问题。
（KNeighborsRegressor类）

缺点

效率低下，复杂度O(m*n)
高度数据相关（只看了k个数据）
预测结果不具有可解释性
维数灾难：随着维度增加，“看似相近”的两个点的距离越来越大。

机器学习流程

1 数据划分成训练数据和测试数据
2 对数据进行归一化
3 训练模型
4 评价模型
（使用网格搜索寻找最好的超参数）

weixin_36322993

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。