机器学习
文章平均质量分 93
边学习边更新
小馒头学python
这个作者很懒,什么都没留下…
展开
-
实战:朴素贝叶斯文本分类器搭建与性能评估
贝叶斯分类基于贝叶斯定理,其核心思想是通过先验概率和样本数据计算后验概率,从而进行分类。贝叶斯定理表达为:其中,P(A∣B) 是在给定观测数据 B 的情况下事件 A 的后验概率,P(B∣A) 是在事件 A发生的情况下观测到 B 的概率,P(A) 是事件 A 的先验概率,P(B) 是观测到 B 的概率。贝叶斯分类作为一种基于统计学习的方法,在实际问题中展现了良好的性能。通过充分利用先验知识和观测数据,贝叶斯分类为我们提供了一种有效的分类工具,特别在小样本场景和文本分类等任务中表现出色。原创 2023-12-25 17:06:50 · 1302 阅读 · 11 评论 -
深入了解多分类混淆矩阵:解读、应用与实例
混淆矩阵是一个用于可视化分类模型性能的表格,它将模型的预测结果与实际标签进行比较。对于多分类问题,混淆矩阵的结构可能会略有不同,但基本思想相同。其中,每一行代表实际类别,每一列代表模型的预测类别。矩阵的对角线上的元素(TPii)表示模型正确预测的样本数,而非对角线元素则表示模型错误预测的样本数。解读混淆矩阵True Positives (TP):模型正确预测为第 i 类的样本数。False Positives (FP):模型错误地预测为第 i 类的样本数。原创 2023-09-28 07:45:00 · 1812 阅读 · 25 评论 -
机器学习中的分类问题:如何选择和理解性能衡量标准
对于这些问题,我们需要一种方式来评估模型的性能,以便选择最合适的模型、调整参数,并最终在实际应用中做出可靠的决策。不同的问题可能需要不同的度量标准。绘制这两种曲线的过程相似,通常需要使用模型的预测概率来确定不同的阈值,并计算相应的性能指标。ROC曲线是另一种用于评估分类模型性能的工具,它关注的是模型的真正例率(True Positive Rate)和假正例率(False Positive Rate)。ROC曲线是一个用于可视化分类器性能的工具,而AUC是ROC曲线下的面积,用于量化分类器的性能。原创 2023-09-25 09:40:24 · 1906 阅读 · 83 评论 -
逻辑回归与多项式特征:解密分类问题的强大工具
逻辑回归是一种广泛应用于二元分类问题的监督学习算法。它通过将输入特征线性组合并通过一个逻辑函数(也称为Sigmoid函数)将结果映射到0和1之间的概率值。这个概率值可以用来进行分类决策,通常当概率值大于0.5时,将样本分类为正类,否则为负类。逻辑回归的数学表示如下:其中,Py1∣XP(y=1 | X)Py1∣X是样本为正类的概率,XXX是输入特征向量,θ\thetaθ是模型参数。原创 2023-09-23 07:45:00 · 1753 阅读 · 69 评论 -
二分类问题的解决利器:逻辑回归算法详解(一)
接受训练数据X_train和对应的目标变量y_train,以及可选的参数:n_iters(迭代轮数,默认为5,表示整个数据集会被遍历5次)、t0 和 t1(用于计算学习率的超参数,默认分别为5和50)。这是fit方法的定义,它接受训练数据x_train和对应的目标变量y_train作为输入,还包括三个可选参数:eta(学习率,默认为0.01)、n_iters(最大迭代次数,默认为1万)、epsilon(用于判断收敛的小量值,默认为1e-8)。返回的结果是一个包含0和1的数组,表示每个样本的预测类别。原创 2023-09-21 20:45:00 · 786 阅读 · 24 评论 -
岭回归与LASSO回归:解析两大经典线性回归方法
这是一个用于回归问题的评估指标,用于度量模型的预测值与实际观测值之间的均方误差。均方误差越小,模型的性能越好。这里我进行一个代码的解释说明,我们定义了一个plot_model函数,这个函数的参数是一个已经训练好的模型,之后打印一个均方误差,用于为了测试预测性能;L1正则化和L2正则化都是用于线性回归等机器学习模型中的正则化技术,它们的作用是防止模型过拟合,提高模型的泛化能力。适用情况:L2正则化通常用于处理多重共线性问题或者在模型需要保留大部分特征的情况下,但希望限制回归系数的大小以提高模型的泛化能力。原创 2023-09-20 21:41:36 · 3929 阅读 · 50 评论 -
过拟合和欠拟合:机器学习模型中的两个重要概念
过拟合和欠拟合是机器学习过程中的两个重要概念,对于提高模型的性能和实用性具有重要意义。了解过拟合和欠拟合的概念、影响、解决方法以及研究现状和发展趋势,有助于我们在实际应用中更好地应对和解决这些问题。未来,过拟合和欠拟合的研究将继续深入发展,研究者们将不断探索新的方法和技术以解决这些问题。随着机器学习技术的广泛应用,过拟合和欠拟合的研究也将具有更加实际的应用价值。挑战与创造都是很痛苦的,但是很充实。原创 2023-09-13 22:10:38 · 859 阅读 · 0 评论 -
非线性世界的探索:多项式回归解密
多项式回归是一种回归分析方法,用于建立因变量(目标)和自变量(特征)之间的关系。与线性回归不同,多项式回归假设这种关系不是线性的,而是一个多项式函数。y 是因变量(目标)。x 是自变量(特征)。β0,β1,…,βn 是多项式的系数。ϵ 是误差项,表示模型无法完美拟合数据的部分。多项式回归的关键之处在于它允许我们通过增加多项式的阶数(nn)来适应不同程度的非线性关系。原创 2023-09-13 19:21:45 · 255 阅读 · 2 评论 -
释放数据的潜力:用梯度上升法解锁主成分分析(PCA)的神奇
主成分分析是一种统计技术,旨在找到数据中的主要变化方向,以便将数据投影到新的坐标系中,从而减少维度或提取最重要的特征。通常情况下,PCA的目标是找到一组正交基向量(模长为1的向量),称为主成分,这些向量按照方差递减的顺序排列。这些主成分捕捉了数据中的大部分信息,允许我们以更低维度的方式表示数据。原创 2023-09-11 17:04:38 · 554 阅读 · 76 评论 -
深入探讨梯度下降:优化机器学习的关键步骤(三)
在每次更新时,随机梯度下降只使用一个样本中的一个例子来近似所有的样本,来调整参数,虽然不是全局最优解,但很多时候是可接受的。这个函数使用了随机梯度下降算法来更新模型参数,通过不断地随机选择一个样本进行参数更新,逐渐优化模型以适应训练数据。这个函数用于计算线性回归中的成本函数(通常是均方误差)相对于参数 theta 的梯度,采用了矢量化的方法。随机梯度下降和批量梯度下降都是常用的优化方法,它们在处理大规模数据集时都有自己的优点和缺点。但是,随机梯度下降的收敛可能更加波动,因为每次迭代的样本可能不同。原创 2023-09-09 16:20:46 · 1787 阅读 · 78 评论 -
深入探讨梯度下降:优化机器学习的关键步骤(二)
总之,学习率是梯度下降算法中的关键超参数之一,它需要仔细选择和调整,以在训练过程中实现最佳性能和收敛性。不同的问题和数据集可能需要不同的学习率,因此在实践中,通常需要进行实验和调优来找到最佳的学习率值。在梯度下降算法中,学习率(通常用符号η表示,也称为步长或学习速率)的选择非常重要,因为它直接影响了算法的性能和收敛速度。我们从图可以清楚的看到,当eta为1.1的时候是嗷嗷增大的,这种情况我们需要采用异常处理来限制一下,避免报错,处理的方式是限制循环的最大值,且可以在expect中设置inf(正无穷)原创 2023-09-03 13:54:54 · 775 阅读 · 39 评论 -
深入探讨梯度下降:优化机器学习的关键步骤(一)
梯度下降是一种迭代优化算法,旨在寻找函数的局部最小值(或最大值)以最小化(或最大化)一个损失函数。在机器学习中,我们通常使用梯度下降来最小化模型的损失函数,以便训练模型的参数。这里顺便提一嘴,与梯度下降齐名的梯度上升算法目的是使效用函数最大。本节只介绍梯度下降的简单实现,下节继续学习此法中eta参数的调节挑战与创造都是很痛苦的,但是很充实。原创 2023-09-02 22:06:48 · 1519 阅读 · 28 评论 -
探索数据的维度:多元线性回归在实际应用中的威力
多元线性回归是一种统计方法,用于研究多个自变量与一个连续因变量之间的关系。它基于线性方程的概念,即假设自变量与因变量之间存在线性关系。多元线性回归的数学表达式如下:在这个方程中,YY 是因变量,X1,X2,…,XpX1,X2,…,Xp 是自变量,β0,β1,β2,…,βpβ0,β1,β2,…,βp 是回归系数,代表了每个自变量对因变量的影响,εε 是误差项。原创 2023-08-27 08:27:51 · 575 阅读 · 35 评论 -
深入理解线性回归模型的评估与优化方法
然而,在使用线性回归模型时,仅仅构建模型是不够的,还需要对模型进行评估和优化,以确保其在实际应用中表现出色。模型评估是了解模型性能的关键步骤,它帮助我们了解模型在新数据上的表现。特征工程是提高模型性能的关键步骤。均方误差(MSE) 和 均方根误差(RMSE):对于这两个指标,数值越小越好,因为它们衡量了模型预测值与真实值之间的差异,越小表示模型的预测越接近真实值。决定系数(R-squared):在决定系数中,数值越接近1越好,因为它表示模型对因变量变化的解释能力,越接近1表示模型能够更好地解释数据的变化。原创 2023-08-25 12:56:15 · 1133 阅读 · 31 评论 -
简单线性回归:预测事物间简单关系的利器
在数据科学领域,线性回归是一种基本而强大的统计分析方法。它广泛应用于各个领域,从经济学到生物医学研究,从市场营销到城市规划,目的是建立和利用变量之间的简单关系,以便预测未来趋势或做出决策。在本文中,我们将深入探讨简单线性回归的工作原理、应用场景和使用步骤,以帮助您更好地理解和应用这一强大的分析工具。简单线性回归是一种线性回归模型的基本形式,用于分析两个变量之间的关系。其中一个变量被称为“自变量”或“预测变量”,而另一个变量被称为“因变量”或“响应变量”。原创 2023-08-13 18:11:20 · 550 阅读 · 14 评论 -
数据归一化:优化数据处理的必备技巧
数据归一化是优化数据处理的必备技巧,它使得不同特征之间具有可比性,提高模型的性能和稳定性。在实践中,我们应根据数据类型和任务需求选择合适的归一化方法,并注意处理异常值、归一化顺序和范围,以及考虑归一化的影响。通过合理和正确地应用数据归一化,我们能够充分挖掘数据的潜力,做出更准确和可靠的决策。挑战与创造都是很痛苦的,但是很充实。原创 2023-08-12 08:53:01 · 5029 阅读 · 1 评论 -
K最近邻算法:简单高效的分类和回归方法(三)
这里我们将数据集分为两部分,一部分为训练集,一部分为测试集,因为这里的训练集和测试集都是有y的,所以我们只需要将训练集进行训练,然后产生的模型应用到测试集,再将预测的y和原本的y进行对比,这样就可以了。这里我们不妨思考一下,如果训练集和测试集是8:2的话,测试集的y岂不是都是2了,那么还有啥子意义,所以我们需要将其打乱一下下,当然我们这里打乱的是index也就是下标,可不要自以为是的将y打乱了。是用于模型训练的数据集合。在模型训练过程中,通常将数据集划分为训练集和测试集,用于训练和评估模型的性能。原创 2023-08-08 21:04:06 · 954 阅读 · 22 评论 -
制定机器学习规划路线:从入门到专业
这些竞赛提供了一个与世界各地的机器学习专家和从业者竞争和合作的机会,对于个人的学习和职业发展都具有重要意义。机器学习是一个广阔而快速发展的领域,制定一个明确的学习规划路线对于初学者和从业者都是至关重要的。通过迈出这些阶段,从入门到专业,你可以不断学习和实践机器学习的基本概念、算法和工具,并逐步在领域中发展和应用你的专业技能。学习一种编程语言,如Python,并熟悉其相关的机器学习库,如scikit-learn、TensorFlow和PyTorch。机器学习的比赛提供了一个实践和展示机器学习能力的平台。原创 2023-07-28 09:19:19 · 1339 阅读 · 22 评论 -
机器学习伦理:探讨隐私保护、公平性和透明度
随着机器学习技术的不断发展和应用,我们必须面对伦理问题,以确保这些智能系统的发展和使用是符合道德和法律规范的。本文将就机器学习伦理的关键议题,包括隐私保护、公平性和透明度进行探讨。原创 2023-07-28 08:46:33 · 381 阅读 · 3 评论 -
机器学习术语解析与应用(二)
它通过设计合理的自监督任务,如图像的旋转恢复、遮挡恢复或文本的填充,使得模型可以从无标签的数据中学习有用的特征表示。不同的任务和模型有不同的目标函数。计算机视觉利用深度学习和传统的图像处理技术,如卷积神经网络(CNN)、目标检测算法(如Faster R-CNN和YOLO)等来解决各种实际问题,包括人脸识别、图像检索、自动驾驶等领域。通过使用专门设计的GPU加速库(如CUDA和OpenCL),可以将计算密集型的机器学习任务委托给GPU进行并行计算,从而大幅提高训练和推断的速度。原创 2023-07-21 08:11:41 · 422 阅读 · 9 评论 -
机器学习术语解析与应用(一)
神经网络在深度学习中起到了至关重要的作用,它能够通过学习从输入到输出之间的复杂映射关系,实现高级的模式识别和预测能力。在机器学习的领域中,有许多常用的术语与概念,下面将为您解析这些术语,并介绍它们在实际应用中的作用。无监督学习是一种机器学习任务,其中模型从没有标签的训练样本中学习,并试图发现数据中的隐藏结构和模式。模型可以是线性的、非线性的、概率的等等,它们通过训练数据进行学习,再用来做预测或者分类。通过选择最相关的特征、进行合适的数据变换和创造新的特征,可以提高模型的准确性和泛化能力。原创 2023-07-21 08:06:02 · 1842 阅读 · 10 评论 -
K最近邻算法:简单高效的分类和回归方法(二)
scikit-learn(sklearn)是一个开源的Python机器学习库,建立在NumPy、SciPy和matplotlib等科学计算库之上。它提供了大量的机器学习算法实现,包括分类、回归、聚类、降维等。sklearn还包括用于模型评估、数据预处理和特征选择的工具,以及用于模型训练和预测的API接口。总之,KNN算法是一个简单而有效的机器学习算法,适用于许多分类和回归问题。通过选择适当的参数和数据预处理技术,可以提高算法的性能和准确性。挑战与创造都是很痛苦的,但是很充实。原创 2023-07-14 09:50:38 · 496 阅读 · 6 评论 -
K最近邻算法:简单高效的分类和回归方法
K最近邻(K-nearest neighbors,简称KNN)算法是一种基于实例的机器学习方法,可以用于分类和回归问题。它的思想非常简单,但在实践中却表现出了出色的效果。本文将介绍KNN算法的原理、应用场景和优缺点,并通过示例代码演示其实现过程以上代码仅仅的简单演示一遍KNN算法,但是真正的KNN算法并没有这么简单,下节我会通过上述代码的基础上进行简单的优化,并进行封装挑战与创造都是很痛苦的,但是很充实。原创 2023-07-11 10:11:49 · 1922 阅读 · 4 评论 -
利用NumPy和Pandas进行机器学习数据处理与分析
在进行科学计算和数据分析时,处理大量数据和进行高效的数值计算是不可或缺的。为了满足这些需求,Python语言提供了一个被广泛使用的库——Numpy。Numpy是Numerical Python的缩写,它为Python提供了功能强大的多维数组对象和一组用于处理这些数组的函数。本文将介绍Numpy的基本语法,包括数组的创建、索引和切片、数学运算、广播和聚合等功能,以帮助读者快速上手和熟练使用Numpy进行数值计算。在机器学习领域,数据处理是非常重要的一环。原创 2023-07-06 16:56:35 · 652 阅读 · 2 评论 -
一、机器学习之Python基本语法入门指南(一)
Python是一门功能强大的编程语言,并且它附带了一个丰富的标准库,提供了各种各样的模块和功能,可以帮助你解决各种日常编程任务。这些标准库是Python内置的,因此无需额外安装即可使用。本篇博客将为你探索一些常用的Python标准库和其功能。os库(Operating System)os库提供了许多与操作系统交互的函数,可以处理文件和目录、执行系统命令、获取环境变量等。原创 2023-07-03 21:46:57 · 94 阅读 · 1 评论