自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 交叉验证网格搜索

它通过穷举所有可能的参数组合,然后按照预定义的评价指标对模型进行评估,从而找到最佳参数组合。5.若k=5模型得分最好,再使用全部训练集(训练集+验证集)对k=5模型再训练一边,再使用测试集对k=5模型做评估。定义:是一种数据集的分割方法,将训练集划分为n份,拿一份做验证集(测试集)、其他n-1份做训练集。交叉验证法,是划分数据集的一种方法,目的就是为了得到更加准确可信的模型评分。4.使用训练集+验证集多次评估模型,取平均值做交叉验证为模型得分。1.第一次,把第一份数据做验证集,其他数据做训练。

2024-04-25 20:05:34 211

原创 距离度量+特征预处理

正态分布记作N(μ,σ ),μ决定了其位置,其标准差σ决定了分布的幅度,当μ = 0,σ = 1时的正态分布是标准正态分布。因特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响目标结果,使得一些模型无法学习到其它的特征,所以对模型进行归一化和标准化处理。1.欧氏距离(Euclidean Distance):直观的距离度量方法,两个点在空间中的距离一般都是指欧氏距离。2.数据标准化:通过对原始数据进行标准化,转换为均值为0标准差为1的标准正态分布的数据。

2024-04-24 19:20:21 681

原创 特征工程及KNN算法

KNN算法:K-近邻算法(K Nearest Neighbor,简称KNN)。4.特征选择(原始数据特征很多,与任务相关是其中一个特征集合子集,内容:1.特征提取( 从原始数据中提取与任务相关的特征):用较小邻域中的训练实例进行预测容易受到异常点的影响。:用较大邻域中的训练实例进行预测,受到样本均衡的问题。中的大多数属于某一个类别,则该样本也属于这个类别。且K值的增大就意味着整体的模型变得简单,容易发生。KNN算法思想:如果一个样本在特征空间中的。3.特征降维(将原始数据的维度降低,会对原始数据产生影响。

2024-04-23 19:46:13 534

原创 机器学习:人工智能的核心技术之一

提供输入数据和其对应的标签数据,然后搭建一个模型,模型经过训练后准确的找到输入数据和标签数据之间的最优映射关系,从而对新的未标记数据进行预测或分类。有监督分类问题:目标值(标签值)是不连续的,有二分类和多分类。有监督回归问题:目标值(标签值)是连续的。

2024-04-22 17:40:40 2089

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除