- 博客(5)
- 收藏
- 关注
原创 KNN交叉验证2024/4/25
当k=n时,模型的得分最好,再用全部训练集(训练集+验证集)对k=n模型再训练一遍,再使 用测试集对k=n模型做评估。交叉验证:是一种数据集的分割方法,将训练集划分为n份,那一份做测试集,剩下的n-1份做训练。目的是为了得到更加准确可信的模型评分。第二次:把第二份数据做验证集,其他数据做训练。第n次:把第n份数据做验证集,其他数据做训练。原理:第一次:把第一份数据做验证集,其他数据做训练。
2024-04-25 15:15:50 309
原创 KNN算法2024/2/24
d(x, y) = (|x1 - y1|^p + |x2 - y2|^p + ... + |xn - yn|^p)^(1/p),其中p为参数,可以是任意实数。KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。1.曼哈顿距离公式:指两点在标准坐标系上的绝对轴距总和,也称为城市街区距离或L1范数。4.闵氏距离公式:一种通用的距离度量方法,可以根据具体情况调整参数来计算不同的距离。2.欧式距离公式:指两点在标准坐标系上的直线距离,也称为L2范数。
2024-04-24 21:22:06 385 1
原创 特征工程入门,拟合现象,conda环境部署2024/4/23
原因:训练次数过多,模型过于复杂,数据不纯,训练数据太少等。致模型只能在训练样本上得到较好的预测结果,而在位置要本上的效果不好。:即模型在新数据上表现出的能力,如在新数据上表现很好,就称为这个模型泛化能力强,原因:模型过于简单,数据太单调,即样本特征值过少,无法对数据进行预测。在机器学习中:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。:由于某些原因,模型出现在训练集上表现很好,而在测试集上表现很差的现象。如房子的位置,面积,楼层,朝向,价格等等。:用在机器学习中模型对数据的拟合的现象。
2024-04-23 15:38:37 321
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人