![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 96
机器学习算法相关理论知识、工作、实践总结
一只红花猪
1. 多年面试官经验、欢迎咨询各类简历修改、面试经验、求职准备;
2. 混迹多个大厂搜索、推荐、广告、内容、数据挖掘、数据分析等多个岗位工作,目前大模型算法驯化师;
展开
-
【Sklearn-驯化】一文学会机器学习中的交叉验证-Kflods使用技巧
交叉验证是一种统计技术,用于评估并提高模型的预测性能。在scikit-learn中,K折交叉验证(K-Fold Cross-Validation)是一种常用的交叉验证方法,它将数据集分割成K个子集,每个子集轮流作为测试集,而剩下的K-1个子集联合作为训练集。将数据集分割成K个大小相等(或尽可能相等)的子集。对于每个子集,轮流将其作为测试集,其余K-1个子集合并作为训练集。对于每一次分割,计算模型在测试集上的性能指标(如准确率、均方误差等)。将K次的性能指标求平均,得到模型的最终评估结果。A。原创 2024-07-08 10:20:28 · 533 阅读 · 0 评论 -
【Sklearn-驯化】成功学会Xgboost的原理以及实践技巧
XGBoost(eXtreme Gradient Boosting)是一种高效的梯度提升框架,它使用树算法来解决分类和回归问题。XGBoost在许多机器学习竞赛中表现出色,因其速度快、精度高而受到广泛欢迎。Xgboost是GBDT算法的一种很好的工程实现,并且在算法上做了一些优化,主要的优化在一下几点。首先Xgboost加了一个衰减因子,相当于一个学习率,可以减少加进来的树对于原模型的影响,让树的数量变得更多;其次是在原GBDT模型上加了个正则项,对于树的叶子节点的权重做了一个约束;原创 2024-07-05 10:16:19 · 1081 阅读 · 0 评论 -
【Sklearn-驯化】轻松学会机器学习中的bagging基础模型随机森林的使用技巧
随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树并将它们的预测结果结合起来,以提高模型的准确性和鲁棒性。在scikit-learn中,随机森林模型通过RandomForestClassifier(用于分类)和RandomForestRegressor(用于回归)类实现。原创 2024-07-04 12:10:46 · 870 阅读 · 0 评论 -
【Sklearn-驯化】一文搞懂很难的EM算法以及实践
高斯混合模型(Gaussian Mixture Model, GMM)是一种概率模型,它假设数据点是从多个高斯分布中生成的。GMM在聚类分析中非常有用,特别是当数据集包含多个子群体且每个子群体具有不同的特征分布时。在贝叶斯学派,如果知道观测变量以及其分布函数,我们可以通过极大似然或者极大后验的方式去求取相关的分布函数的参数θ\thetaθ,但是当观测数据中含有未知的隐变量时,此时无法通过上述的方式直接去求取相关的分布参数,而EM算法就是为了去解决这个问题的。原创 2024-07-03 12:22:43 · 963 阅读 · 0 评论 -
【Sklearn-驯化】一文分析教你如何使用k-means进行数据聚类
K-Means是一种流行的聚类算法,用于将数据点划分为K个簇。它通过最小化簇内数据点与簇中心的距离来进行聚类,目的是使得簇内的点尽可能相似,簇间的点尽可能不同。K-Means是一种简单而有效的聚类算法,广泛应用于数据探索和分析。scikit-learn提供了易于使用的K-Means实现。通过本博客的代码示例,我们学习了如何创建K-Means模型,进行训练、聚类标签分配和评估。希望这篇博客能够帮助你更好地理解K-Means模型,并将其应用于实际的聚类任务中。原创 2024-07-02 09:59:55 · 960 阅读 · 0 评论 -
【Sklearn-驯化】一文从基础帮你搞懂svm算法做分类和回归的原理以及实践
支持向量机(Support Vector Machine, SVM)是一种监督学习算法,用于分类和回归任务。SVM通过找到数据点之间的最优边界(称为超平面)来区分不同的类别。在scikit-learn(简称sklearn)中,SVM模型通过SVC(用于分类)和SVR(用于回归)类实现。样本空间任意点x到超平面wTxb0(w^Tx+b=0)wTxb0r∣wTxb∣∣∣w∣∣∣∣w∣∣w12w22w32r∣∣w∣∣∣wTx。原创 2024-07-01 13:47:20 · 1254 阅读 · 0 评论 -
【Sklearn-驯化】一文搞懂机器学习树模型建模可视化过程
最为全面的机器学习树模型建模可视化分析原创 2024-06-29 11:43:45 · 731 阅读 · 0 评论 -
【Sklearn-驯化】sklearn中决策树cart的用法,看这篇就够了
🎯 决策树(Decision Tree)是一种常用的机器学习算法,可以用于分类和回归问题。它使用树状结构来表示决策规则,并通过一系列条件进行判断和决策。在训练决策树时,通常采用自顶向下的递归方法,通过选择能够使数据集的纯度提高最大的特征,将数据集分割成更小的子集。纯度是指数据集中同一类别数据的占比或误差的度量,常用的纯度衡量指标有基尼系数、信息熵等。决策树可以根据数据集的特点进行灵活的分类和回归预测,且易于理解和解释。它具有可解释性强、处理缺失值和离散特征能力强等优点。原创 2024-06-29 11:29:48 · 741 阅读 · 0 评论 -
【Sklearn-LR驯化】一文搞懂分类基石模型-逻辑回归使用总结
逻辑回归是一种广泛应用于分类问题的统计方法,特别是在二分类问题中。尽管名字中有“回归”二字,逻辑回归实际上是一种分类算法。在Python的scikit-learn库中,逻辑回归模型通过LogisticRegression类实现,它使用最大似然估计来训练模型。逻辑回归比较高效,不需要太大计算,不需要对特征进行缩放,容易实现。但是该算法分类效果一般,且不能处理非线性问题,因为它的决策边界是线性的。因此,当数据分界面是线性平面的时候,可以采用该算法进行分类。个人觉得逻辑回归设计的巧妙一点的地方在于,将。原创 2024-06-28 10:32:47 · 689 阅读 · 0 评论 -
【Sklearn-线性回归驯化】史上最为全面的预测分析的基石-线性回归大全
线性回归是统计学中最基础的预测模型之一,用于分析一个或多个自变量(解释变量)与一个因变量(响应变量)之间的线性关系。在Python中,scikit-learn库提供了一个简单而强大的线性回归实现,适用于各种回归任务。线性回归就两个参数,从频率学派去解释就是去最小化均方根误差,而最小化误差的方法就是最小二乘法,而对于最小二乘法可以通过极大似然估计推导出来。对于贝叶斯角度去,通过极大后验来估计线性回归的参数,个人感觉更好理解。原创 2024-06-28 10:28:49 · 662 阅读 · 0 评论 -
【Sklearn驯化-回归指标】一文搞懂机器学习中回归算法评估指标:mae、rmse等
回归分析是统计学中用于估计变量之间关系的一种方法。在机器学习中,回归模型用于预测连续的输出值。scikit-learn(简称sklearn)提供了多种回归指标来评估模型的预测性能。mae是回归模型中常用的评估指标之一。它用于衡量模型预测结果与真实值之间的平均绝对差异程度,即平均预测误差的绝对值。L1m∑i1m∣yi−yi∣Lm1i1∑m∣yi−yi∣MAE的值越小,表示模型的预测能力越好。原创 2024-06-27 14:05:08 · 761 阅读 · 0 评论 -
【Sklearn驯化-聚类指标】搞懂机器学习中聚类算法评估指标,轮廓系数、戴维森堡丁指数
聚类作为无监督学习的核心任务之一,旨在将数据集中的样本划分为若干个簇,使得簇内的样本相似度高,簇间的样本相似度低。然而,由于缺乏真实标签,聚类效果的评估成为一个挑战。scikit-learn(简称sklearn)提供了多种聚类指标来量化聚类效果。聚类指标是评估聚类效果的重要工具。在sklearn中,我们可以使用轮廓系数和戴维森堡丁指数等指标来量化聚类的性能。通过理解这些指标的计算方法和适用场景,我们可以更好地评估和优化聚类模型。原创 2024-06-27 14:02:37 · 1051 阅读 · 0 评论