数据处理以及超参数的理解
首先我们需要了解到,我们在进行机器学习的过程中寻求的不是让训练处的在现有的数据集上达到最佳,而是我们需要让其在真实环境中达到最佳的效果。在上一节中我们将全部的数据集全部用于训练模型中,对于我们所训练出的模型无法知道其具体的准确度便投入真实环境使用,这样的做法极具风险性,而且我们也不推荐。
解决方案:机器学习最常用的解决方案便是实现测试集和训练集的相互分离(此方法仍具有局限性,后续会补充)。具体的操作方式是:将全部数据集的80%当做训练数据集,训练出来模型后我们通过另外20%的数据(称其为测试数据集)来验证所训练出来模型的准确度。
实现代码封装:
import numpy as np
def train_test_split(X,y,test_train = 0.2,seed = None):
'''check'''
assert X.shape[0] == y.shape[0],\
"the size must be valid"
assert 0.0 <= test_train <= 1.0,\
"the ratio must be in 0-1"
if seed:
np.random.seed(seed)
shuffle_index= np.random.permutation(len(X))
test_ratio = test_train
test_size = int(len(X) * test_ratio)
test_indexes = X[:test_size]
train_indxes = X[test_size:]
X_train = X[train_indxes]
X_test = X[test_indexes]
y_train = y[train_indxes]
y_test = y[test_indexes]
return X_train,X_test,y_train,y_test
KNN中的超参数:
首先明确一个概念,何为超参数?我们需要在机器学习中传入的参数便是指的是超参数。KNN中的超参数便是K,这是KNN中我们需要关注的第一个超参数。
思考一个问题,加上K=3,距离最近的三个点之间的每个类别占1/3,我们如何确定是属于哪一个类别?如同下图所示:
如上我们便引出了第二个超参数weights.
另外,我们在计算预测点和我们数据点之间的距离时使用的是欧拉距离,但是观察下图后你会发现:
我们便得到了超参数p。
如何才能寻找到最好的超参数?
有两个解决方案:
①我们可以采用经验数值,例如KNN算法中我们使用经验数值K=5,
②网格搜索策略寻找最优参数。
问题:何为最好的超参数?
我们需要一个评判标准,分类算法的评判标准便是模型准确度(accuracy)。
其实现代码如下:(在库中metrics中)
import numpy as</