![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 91
机器学习笔记
小老弟来喽
佛系科研,随便整点
展开
-
机器学习工程实践——基于随机森林模型的数据挖掘项目流程
一个完整的数据挖掘项目流程主要包含六大部分,分别是商业理解、数据理解、数据准备、建立模型、模型评估、方案实施,如图所示数据挖掘项目流程。原创 2023-07-28 20:25:45 · 1922 阅读 · 1 评论 -
机器学习——层次聚类
层次聚类(Hierarchical Clustering)是一类算法的总称,分为两种方式:凝聚法:从下往上不断合并簇,将小类进行聚合分裂法:从上往下不断分离簇,将大类分割成小类。原创 2023-08-02 12:03:05 · 2449 阅读 · 0 评论 -
机器学习工程实践——特征工程
所以对于第一个样本,它的原始类别是 “ 年龄-3 ”“性别-男”,所以它进行 one-hot编码后对应的向量就是[0,1,0,0,1,0,0,0,0];第二个样本编码后的向量为[1,0,0,1,0,0,0,0,0]以上三种填补,对于各个特征来说,本质上还是使用固定值填充,但是填充的值更接近实际情况,因为大部分数据的分布服从高斯分布,而高斯分布的中间部分占据了整体取值的较大比例。第 2 步:按照 f5 特征是否缺失将数据集划分为训练集和测试集两部分,则样本(0,2,4)作为训练集,样本(1,3)作为测试集。原创 2023-07-27 02:36:54 · 364 阅读 · 1 评论 -
机器学习——线性回归
本文详细介绍了线性回归的基本原理和过程,展现了线性回归模型的scikit-learn实现,包括:普通线性回归、基于 L1 正则化的Lasso回归、基于 L2 正则化的岭回归、基于 L1 和 L2 正则化融合的ElasticNet回归四种,从结果看ElasticNet回归模型的性能最优不足的一点,模型的参数是随意取值的,由于没有做模型优化,所以四种模型的预测准确率都不是特别高,而且四种模型的区分度也不是很高感兴趣的朋友可以自己尝试完成优化任务,模型调优详情# 1. 波士顿房价数据"""原创 2023-07-30 21:26:27 · 5005 阅读 · 2 评论 -
机器学习——K-Means聚类
K-Means 算法是一种无监督的聚类算法,其核心思想是:对于给定的样本集,按照样本点之间的距离大小,将样本集划分为K个簇,并让簇内的点尽量紧凑,簇间的点尽量分开算法流程图如下:K-Means算法流程如图,以为例:我们需要将图(a) 中的样本点划分为两类,则K-means聚类过程如下:第 1 步:从M个数据对象中任意选择2个对象作为初始聚类中心,如图(b) 所示。原创 2023-08-01 17:13:06 · 6708 阅读 · 1 评论 -
机器学习工程实践——模型调优
在模型选定后,一般还需进行模型的参数调优工作,介绍两种模型调优的基本方式:网格搜索寻优(Grid Search CV)和随机搜索寻优(Randomized Search CV)原创 2023-07-27 23:14:05 · 425 阅读 · 1 评论 -
机器学习工程实践——模型评估指标
labels是每个样本的预测类别标签;任意两个不同簇之间的最近距离越大(表示不同簇样本相隔越远),任意一个簇内距离最远的两个点的距离越小(表示簇内的样本距离越近),DI值就越大,即簇内相似度高,簇间相似度低。解释:预测结果为 类别0 的数据有5条,其中4条数据预测正确,则 类别0 的精度值为 0.8,类别1的精度值为0.33333333,类别2的精度值为0.5。当每个簇样本的平均距离越小(表示簇内的样本距离越近),簇间中心距离越大(表示不同簇样本相隔越远),DBI的值就越小,即簇内相似度高,簇间相似度低。原创 2023-07-22 13:13:13 · 546 阅读 · 1 评论 -
机器学习概述
机器学习是概率论、线性代数、信息论、最优化理论和计算机科学等多个领域交叉的学科传统编程模式:规则+数据——>传统编程——>答案机器学习模式:数据+答案——>机器学习——>规则机器学习特点:以计算机为工具平台,以数据为研究对象,以学习方法为中心研究包括:(1)机器学习方法:旨在开发新的学习方法(2)机器学习理论:旨在探求机器学习的有效性和效率(3)机器学习应用:主要考虑机器学习模型应用到实际中去,解决实际业务问题。原创 2023-07-11 00:46:40 · 3895 阅读 · 1 评论 -
机器学习工程实践——模型选择
模型选择,又称超参数选择,目的是确定模型使用的超参数具体的过程:首先在训练集和验证集上对多种模型选择(超参数选择)进行验证,选出平均误差最小的模型(超参数)。选出合适的模型(超参数)后,可以把训练集和验证集合并起来,重新把模型训练一遍,得到最终模型,然后再用测试集测试其泛化能力。原创 2023-07-27 19:15:59 · 1067 阅读 · 1 评论 -
机器学习工程实践——模型复杂度度量
在训练模型的过程中,我们通常不会用到样本的全部特征,因为有的特征并不重要,全部使用反而会增加模型的复杂度,干扰对样本类别的预测,所以引入稀疏规则化算子,它会学习如何去掉没用的信息特征,即把这些特征对应的权重系数。偏差也可以称为避免欠拟合,方差被称为避免过拟合,在实际建模过程中,我们可以调整模型函数的参数值,得到多组偏差和方差值,从而判断出最优参数,得到最佳模型,具体方法见下文。一般来说,偏差和方差是有冲突的,偏差随着模型复杂度的增加而降低,而方差随着模型复杂度的增加而增加,如图所示(依然不想画图,O.o)原创 2023-07-23 18:32:48 · 483 阅读 · 0 评论