机器学习
我是马克思小清新
这个作者很懒,什么都没留下…
展开
-
机器学习--KNN算法基本思想
KNN算法--K近邻算法(K-Nearest Neighbors)如下图所示,用肿瘤的大小表示横坐标,时间表示中坐标,其中红色表示良性肿瘤,蓝色表示恶性肿瘤。 根据下图能够得到8个点的初始信息。假如此时出现了第9个点,它的落点在第7个点和第8个点之间,怎么判断它的属性是良性还是恶性呢?在KNN的算法中,首先确定K的值,经典的K值为3,在这里K= 3,表示寻找与第9个点最近的三个点。...原创 2018-10-13 10:27:14 · 4885 阅读 · 0 评论 -
机器学习---scikit-learn中KNN算法的封装
1,工具准备,python环境,pycharm2,在机器学习中,KNN是不需要训练过程的算法,也就是说,输入样例可以直接调用predict预测结果,训练数据集就是模型。当然这里必须将训练数据和训练标签进行拟合才能形成模型。33,在pycharm中创建新的项目工程,并在项目下新建KNN.py文件。import numpy as npfrom math import sqrtfr...原创 2018-10-13 11:09:53 · 373 阅读 · 0 评论 -
scikit-learn中KNN算法数据归一化的分装
现在已经通过大量数据训练出模型,那么在做数据归一化时,要考虑对训练数据和测试数据都要归一化。但是测试数据在后面是需要当作测试模型性能的工具,它的存在是模拟真实环境。1,真实环境是很可能无法得到所有测试数据的均值和方差的。2,而且数据归一化是KNN算法的一部分。比如,预测一朵花的类型,由一个数据是不能得到方差和均值的。所以,对于测试数据应该使用训练数据的均值和方差进行数据归一化。...原创 2018-10-31 15:27:25 · 415 阅读 · 0 评论 -
KNN算法的数据归一化--Feature Scaling
如图1所示,假设现在有两个样本,分别拥有两个特征,如下: 肿瘤的大小(厘米)的 发现时间(天) 样本1 1 200 样本2 五 100 计算两个样本之间的欧拉距离:D = ,这个计算结果很明显是被时间主导的。所以,将时间以年为单位,那么两个样本之间的欧拉距离就是:D = ,这个计算结果又很明显的是被肿瘤大小主导的。根据这个问...原创 2018-10-30 11:07:00 · 1810 阅读 · 0 评论 -
机器学习--KNN算法中的训练数据与测试数据的分离
为什么要将数据分成两部分?假如直接通过大量的训练数据得到我们想要的模型,并且将这个模型直接放在真实环境中使用。但是这样做就会产生很多问题。1,模型的性能很差。2,在真实的环境中可能很难拿到数据的真实的label,比如银行客户的信誉,是需要大量的数据才能得到的。其实在实际环境中,我们是用已经做好的模型去预测真实的数据,这个模型的性能是需要提前经过大量的数据去测试它的性能是怎么样的。那么如...原创 2018-11-07 15:13:52 · 3696 阅读 · 0 评论 -
KNN算法识别手写数字
一,MNIST数据集MNIST 数据集来自美国国家标准与技术研究所,National Institute of Standards and Technology (NIST)。 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员。测试集(test set) 也是同...原创 2019-01-03 16:43:25 · 953 阅读 · 0 评论