机器学习
文章平均质量分 93
本专栏为对该up主https://space.bilibili.com/2932207相关视频的学习记录。
相关笔记与代码:https://github.com/LvSolar/ML20230605
玫川绔紫
啊啊啊啊啊啊啊
展开
-
(11) XGBoost
XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升算法的机器学习模型,特别适用于解决回归和分类问题。它是一种强大的集成学习方法,通过迭代地训练多个弱学习器(通常是决策树),并将它们组合成一个强大的预测模型。XGBoost以其高性能和可扩展性而受到广泛关注,并在多个数据科学竞赛中获得了显著的成绩。XGBoost库是一个开源的机器学习库,最初由陈天奇开发,并在GitHub上公开发布。原创 2023-06-05 12:29:09 · 1201 阅读 · 1 评论 -
(10) 朴素贝叶斯
朴素贝叶斯(Naive Bayes)是一种常见且简单的机器学习算法,常用于文本分类、垃圾邮件过滤、情感分析等任务。它基于贝叶斯定理和特征条件独立性假设,具有高效、易于实现和良好的可解释性。朴素贝叶斯算法基于贝叶斯定理,其中通过观察到的特征预测未观察到的类别。原创 2023-05-28 16:10:12 · 1179 阅读 · 0 评论 -
(9) 线性回归
α。原创 2023-05-18 19:32:39 · 505 阅读 · 1 评论 -
(8) 支持向量机分类器SVC案例:预测明天是否会下雨
SVC在现实中的应用十分广泛,尤其实在图像和文字识别方面,但SVC真实应用的代码其实就是sklearn中的三行,真正能够展现出SVM强大之处的,反而很少是案例本身,而是应用之前所作的各种探索。在实际工作中,数据预处理往往比建模难得多,耗时多得多,因此合理的数据预处理是非常必要的。本案例数据集是未经过预处理的澳大利亚天气数据集。本文的目标是在这个数据集上来预测明天是否会下雨。这个案例的核心目的,是通过巧妙的预处理和特征工程来展示如何在现实数据集上做数据预处理,或者有哪些预处理的方式和思路。原创 2023-05-05 21:36:45 · 1258 阅读 · 5 评论 -
(8) 支持向量机(下)(模型评估指标、ROC曲线)
有一些数据,可能是线性可分,但在线性可分状况下训练准确率不能达到100%,即无法让训练误差为0,这样的数据被我们称为“存在软间隔的数据”。此时此刻,我们需要让我们决策边界能够忍受一小部分训练误差,我们就不能单纯地寻求最大边际了。因为对于软间隔的数据来说,边际越大被分错的样本也就会越多,因此我们需要找出一个”最大边际“与”被分错的样本数量“之间的平衡。因此,我们引入松弛系数和松弛系数的系数C作为一个惩罚项,来惩罚我们对最大边际的追求。那我们的参数C如何影响我们的决策边界呢?在硬间隔的时候,我们的决策边界完全由原创 2023-05-03 17:34:46 · 2205 阅读 · 2 评论 -
(7) 支持向量机(上)
支持向量机(Support Vector Machine,SVM)是一种常用的监督学习算法,主要用于分类和回归问题。在分类问题中,SVM试图找到一个超平面(在二维情况下就是一条直线)来分割两个不同类别的数据点,使得每个类别中的数据点都尽可能地靠近自己的一侧,同时尽可能地远离超平面。SVM所使用的超平面被称为“最大间隔超平面”,因为它使得两个不同类别的数据点之间的间隔最大化。SVM算法可以使用不同的核函数来处理非线性问题。原创 2023-05-01 16:24:30 · 1116 阅读 · 0 评论 -
(6) 聚类算法KMeans(案例:矢量量化的降维)
但在完全收敛之前,我们也可以使用max_iter,最大迭代次数,或者tol,两次迭代间Inertia下降的量,这两个参数来让迭代提前停下来。在分类中,有直接结果(标签)的输出,并且分类的结果有正误之分,所以我们使用预测的准确度,混淆矩阵,ROC曲线等等指标来进行评估,但无论如何评估,都是在”模型找到正确答案“的能力。但轮廓系数也有缺陷,它在凸型的类上表现会虚高,比如基于密度进行的聚类,或通过DBSCAN获得的聚类结果,如果使用轮廓系数来衡量,则会表现出比真实聚类效果更高的分数。初步看数据大概有4簇。原创 2023-04-18 18:52:38 · 1094 阅读 · 0 评论 -
(5) 逻辑回归案例:制作评分卡
在银行借贷场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,它衡量向别人借钱的人(受信人,需要融资的公司)不能如期履行合同中的还本付息责任,并让借钱给别人的人(授信人,银行等金融机构)造成经济损失的可能性。一般来说,评分卡打出的分数越高,客户的信用越好,风险越小。如果这个人的风险太高,我们可以拒绝贷款。本文以个人消费类贷款数据,简单介绍A评分卡的建模和制作流程。本文核心会在”数据清洗“和“模型开发”上。模型检验与评估也非常重要,内容太多,不再赘述。原创 2023-04-05 21:23:45 · 556 阅读 · 0 评论 -
(4) 特征降维:主成分分析PCA和奇异值分解SVD
到现在,我们已经完成了对PCA的讲解。我们讲解了重要参数参数n_components,svd_solver,random_state, 讲解了三个重要属性:components_, explained_variance_以及explained_variance_ratio_,无数次用到了接口fit,transform,fit_transform,还讲解了与众不同的重要接口inverse_transform。原创 2023-03-26 19:42:34 · 401 阅读 · 0 评论 -
(3) 数据预处理与特征工程
到这里我们学习了常用的基于过滤法的特征选择,包括方差过滤,基于卡方,F检验和互信息的相关性过滤,讲解了各个过滤的原理和面临的问题,以及怎样调这些过滤类的超参数。通常来说,我会建议,先使用方差过滤,然后使用互信息法来捕捉相关性,不过了解各种各样的过滤方式也是必要的。以上就是除降维之外的所有特征选择的方法。这些方法的代码都不难,但是每种方法的原理都不同,并且都涉及到不同调整方法的超参数。经验来说,过滤法更快速,但更粗糙。包装法和嵌入法更精确,比较适合具体到算法去调整,但计算量比较大,运行时间长。当数据量很大。原创 2023-03-22 17:26:10 · 155 阅读 · 0 评论 -
(2) 随机森林的调参思想:在乳腺癌数据上的调参
调整Criterion param_grid = {在整个调参过程之中,我们首先调整了(无论如何都请先走这一步),然后调整max_depth,通过max_depth产生的结果,来判断模型位于复杂度-泛化误差图像的哪一边,从而选择我们应该调整的参数和调参的方向。如果感到困惑,也可以画很多学习曲线来观察参数会如何影响我们的准确率,选取学习曲线中单调的部分来放大研究(如同我们对n_estimators做的)。学习曲线的拐点也就是我们一直在追求的,最佳复杂度对应的泛化误差最低点(也是方差和偏差的平衡点)。原创 2023-03-13 20:24:42 · 72 阅读 · 0 评论 -
(2) 随机森林回归:填补缺失值的一种方法
我们从现实中收集的数据,几乎不可能是完美无缺的,往往都会有一些缺失值。面对缺失值,很多人选择的方式是直接将含有缺失值的样本删除,这是一种有效的方法,但是有时候填补缺失值会比直接丢弃样本效果更好,即便我们其实并不知道缺失值的真实样貌。在sklearn中,我们可以使用sklearn.impute.SimpleImputer来轻松地将均值,中值,或者其他最常用的数值填补到数据中,在这个案例中,我们将使用均值,0,和随机森林回归来填补缺失值,并验证四种状况下的拟合状况,找出对使用的数据集来说最佳的缺失值填补方法。原创 2023-03-11 00:40:52 · 1124 阅读 · 0 评论 -
(1) 决策树案例:泰坦尼克号幸存者的预测
决策树小案例:泰坦尼克号幸存者预测原创 2023-03-07 15:17:27 · 109 阅读 · 0 评论