陌零-CSDN博客

原创交叉验证网格搜索

它通过穷举所有可能的参数组合，然后按照预定义的评价指标对模型进行评估，从而找到最佳参数组合。5.若k=5模型得分最好，再使用全部训练集(训练集+验证集)对k=5模型再训练一边，再使用测试集对k=5模型做评估。定义：是一种数据集的分割方法，将训练集划分为n份，拿一份做验证集（测试集）、其他n-1份做训练集。交叉验证法，是划分数据集的一种方法，目的就是为了得到更加准确可信的模型评分。4.使用训练集+验证集多次评估模型，取平均值做交叉验证为模型得分。1.第一次，把第一份数据做验证集，其他数据做训练。

2024-04-25 20:05:34 255

原创距离度量+特征预处理

正态分布记作N(μ，σ )，μ决定了其位置，其标准差σ决定了分布的幅度，当μ = 0,σ = 1时的正态分布是标准正态分布。因特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响目标结果，使得一些模型无法学习到其它的特征，所以对模型进行归一化和标准化处理。1.欧氏距离（Euclidean Distance）：直观的距离度量方法，两个点在空间中的距离一般都是指欧氏距离。2.数据标准化：通过对原始数据进行标准化，转换为均值为0标准差为1的标准正态分布的数据。

2024-04-24 19:20:21 691

原创特征工程及KNN算法

KNN算法：K-近邻算法（K Nearest Neighbor，简称KNN)。4.特征选择（原始数据特征很多，与任务相关是其中一个特征集合子集，内容：1.特征提取（从原始数据中提取与任务相关的特征）：用较小邻域中的训练实例进行预测容易受到异常点的影响。：用较大邻域中的训练实例进行预测，受到样本均衡的问题。中的大多数属于某一个类别，则该样本也属于这个类别。且K值的增大就意味着整体的模型变得简单，容易发生。KNN算法思想：如果一个样本在特征空间中的。3.特征降维（将原始数据的维度降低，会对原始数据产生影响。

2024-04-23 19:46:13 547

原创机器学习：人工智能的核心技术之一

提供输入数据和其对应的标签数据，然后搭建一个模型，模型经过训练后准确的找到输入数据和标签数据之间的最优映射关系，从而对新的未标记数据进行预测或分类。有监督分类问题：目标值（标签值）是不连续的，有二分类和多分类。有监督回归问题：目标值（标签值）是连续的。

2024-04-22 17:40:40 2188

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 交叉验证网格搜索

原创 距离度量+特征预处理

原创 特征工程及KNN算法

原创 机器学习：人工智能的核心技术之一

空空如也

空空如也

原创交叉验证网格搜索

原创距离度量+特征预处理

原创特征工程及KNN算法

原创机器学习：人工智能的核心技术之一