![](https://img-blog.csdnimg.cn/direct/b41e4f3981c14242a15436cd97a1662b.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习算法
文章平均质量分 93
机器学习算法原理及应用
小森( ﹡ˆoˆ﹡ )
(ง •̀_•́)ง加油
展开
-
Sklearn中逻辑回归建模
精确度,衡量对1类样本的识别,能否成功(准确识别出1)的概率,也正是由于这种力求每次出手都尽可能成功的策略,使得当我们在以精确度作为模型判别指标时,模型整体对1的判别会趋于保守,只对那些大概率确定为1的样本进行1类的判别,从而会一定程度牺牲1类样本的准确率,在每次判别成本较高、而识别1样本获益有限的情况可以考虑使用精确度。💢可是,这样的模型有意义吗?则该模型的准确率为98%,因为它正确地识别出来了测试集中的98个狗狗,只是错误的把2个猫咪也当做狗狗,所以按照准确率的计算公式,该模型有高达98%的准确率。原创 2024-06-13 10:32:35 · 1286 阅读 · 5 评论 -
GBDT算法超参数评估
算法是一种强大的机器学习技术,广泛应用于分类、回归等任务。然而,为了充分发挥其性能,超参数的合理设置至关重要。超参数,如学习率、树的最大深度、子样本比例等,直接影响到模型的复杂度、训练速度和预测精度。因此,对GBDT算法的超参数进行细致的评估和调整,是确保模型性能达到最优的关键步骤。原创 2024-06-13 09:29:15 · 754 阅读 · 6 评论 -
梯度提升树GBDT系列算法
在Boosting集成算法当中,我们逐一建立多个弱评估器(基本是决策树),并且下一个弱评估器的建立方式依赖于上一个弱评估器的评估结果,最终综合多个弱评估器的结果进行输出。这个过程相当于有意地加重“难以被分类正确的样本”的权重,同时降低“容易被分类正确的样本”的权重,而将后续要建立的弱评估器的注意力引导到难以被分类正确的样本上。💥由此,我们可以确立任意boosting算法的三大基本元素以及boosting算法自适应建模的基本流程:几乎所有boosting算法的原理都围绕这三大元素构建。在此三大要素基础上,所原创 2024-06-11 14:17:34 · 1116 阅读 · 5 评论 -
机器学习中的集成学习
众人拾柴火焰高”、“三个臭皮匠顶个诸葛亮”等词语都在表明着群体智慧的力量,所谓的“群体智慧”指的就是一群对某个主题具有平均知识的人集中在一起可以对某一些问题提供出更加可靠的答案。原因在于,汇总结果能够抵消噪音,得出的结论通常可以优于知识渊博的专家。同样的规则也适用于机器学习领域。在机器学习中,群体智慧是通过集成学习实现的,所谓集成学习(ensemble learning),是指通过构建多个弱学习器,然后结合为一个强学习器来完成分类任务并获得比单个弱分类器更好的效果。原创 2024-06-04 08:55:24 · 1002 阅读 · 3 评论 -
梯度下降算法
在线性回归中,我们使用最小二乘法,能够直接计算损失函数最小值时的参数值,但是,最小二乘法有使用的限制条件,在大多数机器学习的使用场景之下,我们会选择梯度下降的方法来计算损失函数的极小值,首先梯度下降算法的目标仍然是求最小值,但和最小二乘法这种一步到位、通过解方程组直接求得最小值的方式不同,梯度下降是通过一种“迭代求解”的方式来进行最小值的求解,其整体求解过程可以粗略描述为,先随机选取一组参数初始值,然后沿着某个方向,一步一步移动到极小值点 一个人被困在山上,需要从山上下来。原创 2024-05-18 20:02:41 · 1317 阅读 · 5 评论 -
Logistic回归
本章节讲解逻辑回归的基本原理、逻辑回归模型构建过程。课程环境使用Jupyter notebook环境。原创 2024-05-17 09:43:00 · 1175 阅读 · 5 评论 -
机器学习中的聚类
它将一组数据分成若干个不同的群组,使得每个群组内部的数据点相似度高,而不同群组之间的数据点相似度低。质心的选择会影响图的松散程度:SSE = (−0.2) 2 + (0.4) 2 + (−0.8) 2 + (1.3) 2+ (−0.7) 2 = 3.02。对于n个点的数据集,迭代计算 k from 1 to n,每次聚类完成后计算 SSE,SSE 是会逐渐变小的,因为每个点都是它所在的簇中心本身。对计算每一个样本 i 到同簇内其他样本的平均距离 ai,该值越小,说明簇内的相似程度越大。原创 2024-05-13 23:28:16 · 1498 阅读 · 3 评论 -
集成学习思想
集成学习思想线性回归、逻辑回归、决策树都是单一模型预测我们想把多个相同模型、多个不同种类的模型组合起来,形成一个更强大的模型进行预测集成学习概念:将多个学习器(也称为基学习器)组合成一个更强大的学习器的机器学习技术。通过利用多个学习器的优势来提高预测的准确性和鲁棒性,从而达到更好的性能表现。集成学习通过构建多个模型来解决单一预测问题生成多基学习器,各自独立地学习和预测通过平权或者加权的方式,整合多个基学习器的预测输出。原创 2024-05-13 15:07:27 · 946 阅读 · 2 评论 -
机器学习特征降维
相关系数的值介于–1与+1之间,当 r>0 时,表示两变量正相关,r<0 时,两变量为负相关,当 |r|=1 时,表示两变量为完全相关,当r=0时,表示两变量间无相关关系。斯皮尔曼相关系数与之前的皮尔逊相关系数大小性质一样,取值 [-1, 1]之间,斯皮尔曼相关系数比皮尔逊相关系数应用更加广泛。PCA 通过对数据维数进行压缩,尽可能降低原数据的维数(复杂度)损失少量信息,在此过程中可能会舍弃原有数据、创造新的变量。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变。原创 2024-05-12 22:56:06 · 925 阅读 · 4 评论 -
AI - 决策树模型
基尼系数衡量的是数据集的不纯度,基尼系数越小,表示数据越纯,即分类越明确。CART剪枝算法从“完全生长”的决策树的底端剪去一些子树,使决策树变小,从而能够对未知数据有更准确的预测,也就是说CART使用的是后剪枝法。一般分为两步:先生成决策树,产生所有可能的剪枝后的CART树,然后使用交叉验证来检验各种剪枝的效果,最后选择泛化能力好的剪枝策略。ID3 树是基于信息增益构建的决策树,算法的核心在于使用信息增益作为属性选择的标准,即在每个节点选择尚未被用来划分的、具有最高信息增益的属性作为划分标准。原创 2024-03-16 15:13:26 · 1268 阅读 · 9 评论 -
AI - 机器学习GBDT算法
GBDT属于Boosting方法的一种,这种方法会顺序构建一系列弱学习器(通常是决策树),每个后续模型都侧重于纠正前一个模型的错误。首先定义了一个参数网格(param_grid),包含了三个超参数:max_depth(树的最大深度)、n_estimators(弱学习器的数量)和eta(学习率)。负梯度是GBDT中用来指导模型优化的方向,它根据当前模型的损失函数来计算,并通过拟合这些负梯度来训练新的决策树,从而逐步提升模型的性能。是一个用于数据分割的参数,它指定了交叉验证的策略。原创 2024-03-20 09:16:57 · 1672 阅读 · 25 评论 -
AI - 集成学习
并且可以使用交叉验证等技术来选择最优的模型,根据性能评估的结果,可以调整集成学习器的参数,如基学习器的数量、投票策略等,以优化其性能。💎集成学习是机器学习中的一种思想,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型成为弱学习器(基学习器)。基学习器是可使用不同的学习模型,比如:支持向量机、神经网络、决策树整合到一起作为一个集成学习系统也可使用相同的学习模型,一般情况下,更使用相同的学习模型。随机森林的随机性体现在每棵树的训练样本是随机的,树中每个节点的分裂属性也是随机选择的。原创 2024-03-19 09:10:47 · 1328 阅读 · 16 评论 -
AI - 支持向量机算法
相反,如果C设置得过小,模型可能会欠拟合,即对训练数据的分类错误过多,这也会影响模型在新数据上的性能。yi 是样本的标签,omega 和 b 分别是模型的权重和偏置项,xi 是第 i 个样本的特征向量。SVM的核心思想是找到一个超平面,这个超平面能够最好地将数据分为两类,即在保证分类准确的情况下,使得两个类别的数据到超平面的最小距离(即间隔)最大。SVM的损失函数通常指的是合页损失函数(Hinge Loss),它是一种变种损失函数,用于最大间隔分类。在实际的应用中,选择合适的C值是非常重要的。原创 2024-03-17 09:11:21 · 1909 阅读 · 21 评论 -
AI-逻辑回归模型
AUC的取值范围在0.5到1之间,其中0.5表示模型没有区分能力,而1表示模型具有完美的分类能力。其中,( y_i ) 是样本的真实标签(0或1),( p_i ) 是模型预测该样本为正例的概率,N是样本数量。当模型预测的概率与真实标签一致时,损失函数的值会很小;会在计算损失函数时自动为每个类分配权重,使得较少出现的类别(少数类)获得更高的权重,以此来平衡各类别之间的样本数量差异。这样做有助于改善模型对少数类的识别能力,特别是在数据集中某些类的样本数量远少于其他类时,这种权重调整可以防止模型偏向于多数类。原创 2024-03-15 09:21:43 · 1915 阅读 · 15 评论 -
AI-线性回归模型
线性回归模型的预测公式可以表示为 y = θ0 + θ1x1 + θ2x2 +... + θnxn,其中 θj 是模型参数,包括偏置项 θ0 和特征权重 θ1, θ2,..., θn。在每一步迭代中,都沿着当前点的梯度(即损失函数在该点的导数)方向移动一定的步长,以此来减小损失函数的值。用来衡量机器学习模型性能的函数,损失函数可以计算预测值与真实值之间的误差(用一个实数来表示),误差越小说明模型性能越好。但是用来衡量回归损失的时候, 不能简单的将每个点的预测误差相加。SGDRegressor学习率。原创 2024-03-14 13:21:30 · 1758 阅读 · 15 评论 -
K 近邻算法
其基本思想是:给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类别,则该输入实例也属于这个类别。分层类别分割: Counter({2: 40, 0: 40, 1: 40}) Counter({2: 10, 1: 10, 0: 10})随机类别分割: Counter({1: 41, 0: 40, 2: 39}) Counter({2: 11, 0: 10, 1: 9})K近邻是机器学习算法中理论最简单,最好理解的算法,虽然算法简单,但效果也不错。原创 2024-03-13 13:50:41 · 1074 阅读 · 20 评论 -
OpenCV算法库
numba是一个用于编译Python数组和数值计算函数的编译器,这个编译器能够大幅提高直接使用Python编写的函数的运算速度。Numba是一个将面向数组和使用大量数学的python代码优化到与c,c++和Fortran类似的性能,而无需改变Python的解释器。原创 2024-02-28 10:11:47 · 1363 阅读 · 2 评论 -
OpenCV基础
OpenCV是一个功能强大的,它在图像处理和视频分析领域得到了广泛应用。OpenCV最初由英特尔公司于1999年发起并支持,后来由Willow Garage和Itseez(现在是Intel的一部分)维护。它是为了推动机器视觉领域的实时应用而开发的。OpenCV提供了丰富的算法,包括但不限于图像处理、物体和特征检测、物体识别、3D重建等。这些算法经过优化,可以在多种硬件平台上高效运行。OpenCV被广泛应用于面部识别、物体识别、运动跟踪、机器人视觉以及许多其他的计算机视觉应用中。原创 2024-02-10 16:12:16 · 1249 阅读 · 0 评论 -
XGBoost算法
XGBoost在机器学习中被广泛应用于多种场景,特别是在结构化数据的处理上表现出色,XGBoost适用于多种监督学习任务,包括分类、回归和排名问题。:XGBoost的基本思想是通过添加一系列弱学习器(通常是CART回归树)来逐步减少目标函数的残差(模型预测值与实际值之间的差异),从而提升模型的性能。:XGBoost提供了多种编程语言的接口,包括Python、R、Java等,方便用户在不同的环境中使用。:XGBoost在许多机器学习竞赛和实际应用中表现出卓越的性能,尤其在结构化数据上的表现尤为突出。原创 2024-02-08 13:31:03 · 1564 阅读 · 1 评论 -
AdaBoost算法
AdaBoost的核心思想是通过对错误分类的样本增加权重,使得后续的弱分类器更加关注这些难以分类的样本。通过加权投票的方式,将多个弱分类器的预测结果组合起来,形成一个强分类器。原创 2024-02-07 13:11:01 · 1179 阅读 · 0 评论 -
机器学习聚类算法
方法,用于将数据集中的样本划分为多个簇,使得同一簇内的样本相似度较高,而不同簇之间的样本相似度较低。K-means是一种基于划分的聚类算法,其基本原理是通过迭代计算,将数据集划分为K个簇,使得每个簇内的数据点到该簇中心的距离之和最小。聚类算法在现实中的应用:用户画像,广告推荐,搜索引擎的流量推荐,恶意流量识别,新闻聚类,筛选排序;在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果。接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点。原创 2024-02-05 12:04:00 · 1363 阅读 · 0 评论 -
支持向量机
支持向量机(Support Vector Machine,SVM)是一个非常优雅的算法,具有非常完善的数学理论,常用于数据分类,也可以用于数据的回归预测中。通过对文本数据进行预处理,提取特征,然后使用支持向量机进行训练和预测,可以实现对文本数据的自动分类。通过对图像数据进行预处理,提取特征,然后使用支持向量机进行训练和预测,可以实现对图像数据的自动识别。硬间隔指的是让所有的样本都不在最大间隔之间,并位于正确的一边,如果出现异常值、或者样本不能线性可分,硬间隔无法实现。软间隔可以应用在一些线性不可分的场景。原创 2024-02-04 11:43:44 · 2079 阅读 · 3 评论 -
机器学习算法决策树
决策树是一种常见的分类模型,在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。例如在婚恋市场中,女方通常会先询问男方是否有房产,如果有房产再了解是否有车产,如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。由于决策树模型中自变量与因变量的非线性关系以及决策树简单的计算方法,使得它成为集成学习中最为广泛使用的基模型。原创 2024-02-01 21:11:40 · 2532 阅读 · 1 评论 -
KNN算法原理及应用
KNN是监督学习分类算法,主要解决现实生活中分类问题。根据目标的不同将监督学习任务分为了分类学习及回归预测问题。监督学习任务的基本流程和架构:(1)首先准备数据,可以是视频、音频、文本、图片等等(2)抽取所需要的一些列特征,形成特征向量(Feature Vectors)。(3)将这些特征向量连同标记一并送入机器学习算法中,训练出一个预测模型。(4)然后,采用同样的特征提取方法作用于新数据,得到用于测试的特征向量。原创 2024-01-17 23:17:20 · 2182 阅读 · 2 评论 -
线性回归原理
数据中有少数异常点偏差很大,如果此时根据 RMSE 选择线性回归模型,可能会选出过拟合的模型来,数据中的异常点极少,选择具有最低 MAE 的回归模型可能更合适。将上面所有点的预测误差相加得到18,误差有些大,模型还有调整的空间,令W=2时计算出误差为0,但实际情况除了d0之外其余点均存在预测误差。我们设想自己站在一座山(目标函数的等高线图)上,我们的目标是最小化这个函数值,也就是说,我们要找到这座山的最低点或山谷。在多变量函数中,梯度是一个向量,有方向,梯度的方向就指出了函数在给定点的上升最快的方向。原创 2024-01-22 13:11:43 · 1154 阅读 · 1 评论 -
AI ppt生成器 Tome
例如,你可以输入“一个骑着独角兽的男人”,然后AI就会为你生成一张符合这个描述的图片,并且可以让你改变男人或独角兽的颜色、大小、位置等。> 提示栏(Prompt Bar):**可以让你输入任何想法或问题,然后由AI来为你生成完整的故事或者特定的页面。Tome平台还提供了丰富的模板库、自定义设计、大量的素材库和多语言支持等功能,使得用户可以根据自己的需求和风格制作出高质量的PPT。点击右侧的工具栏按钮,输入或者修改与TomeAi的对话,TomeAi可以根据你的对话生成对应的图片。点击图片可以进行更换。原创 2024-01-08 10:19:35 · 1299 阅读 · 4 评论