- 博客(42)
- 收藏
- 关注
原创 监督学习概览
监督学习,作为机器学习的一个重要分支,其核心在于通过给定的输入数据及其对应的标签或输出,训练出一个模型,使该模型能够自动地对新的、未见过的输入数据进行准确的预测或分类。
2024-06-22 15:13:45
370
原创 机器学习导论
亚瑟·塞缪尔(Arthur Samuel)是美国早期计算机游戏和人工智能领域的领军人物,他于1959年在IBM工作时创造了“机器学习”一词。他将机器学习定义为“赋予计算机无需明确编程即可学习的能力的研究领域”。然而,机器学习并没有一个普遍接受的定义。不同的作者对这个词有不同的定义。
2024-06-22 11:00:00
414
原创 应用数学与机器学习基础 - 估计、偏差和方差篇
估计、偏差和方差是数据分析中不可或缺的工具。通过估计,我们可以基于有限的数据对未知参数进行推断;而偏差和方差则提供了评估这些估计准确度和稳定性的指标。在实际应用中,我们需要综合考虑这些因素,以做出更明智的决策。
2024-06-22 08:30:00
846
原创 如何选择机器学习算法性能指标
选择用于评估机器学习算法的指标非常重要。指标的选择会影响机器学习算法性能的衡量方式并比较。它们会影响我们如何权衡不同特征的重要性结果以及选择哪种算法的最终选择。
2024-06-21 17:00:00
405
原创 梯度下降介绍
梯度下降是通过不断调整模型参数,减小目标函数的值,找到使目标函数最小化的参数值。在每一次迭代中,梯度下降计算目标函数对参数的梯度,并沿着梯度的反方向更新参数,使目标函数值减小。这个过程重复进行,直到达到一定的迭代次数或目标函数值足够小。
2024-06-21 13:29:56
704
原创 抽查分类算法
抽查是一种发现哪种算法在机器学习问题中表现良好的方法。我们无法提前知道哪种算法最适合。我们必须尝试多种方法,并关注那些表现出最大潜力的方法。
2024-06-21 10:45:00
475
原创 应用数学与机器学习基础 - 超参数和验证集篇
在深度学习中,超参数和验证集是两个非常重要的概念,它们各自在模型的训练和调优过程中扮演着关键的角色。
2024-06-21 08:00:00
328
原创 机器学习的应用
机器学习是人们遇到过的最令人兴奋的技术之一。从名字中可以明显看出,它赋予了计算机使其与人类更相似的东西:学习能力。如今,机器学习正在被积极使用,也许在比人们预期的要多得多的地方。
2024-06-20 14:35:07
597
原创 批量梯度下降与随机梯度下降区别
为了训练线性回归模型,我们必须学习一些模型参数,例如特征权重和偏差项。做同样事情的一种方法是梯度下降,它是一种迭代优化算法,能够通过最小化训练数据上的代价函数来调整模型参数。它是一个完整的算法,即它保证找到全局最小值(最优解),只要有足够的时间,并且学习率不是很高。在线性回归和神经网络中广泛使用的梯度下降的两个重要变体是批量梯度下降(BGD)和随机梯度下降(SGD)。
2024-06-20 11:00:00
548
原创 应用数学与机器学习基础 - 容量、过拟合和欠拟合篇
深度学习容量指的是模型能够表示和学习复杂函数的能力。当模型容量过大时,它可能会过于精确地拟合训练数据,导致对未知数据的预测性能下降,这种现象称为过拟合。过拟合的模型在训练集上表现良好,但在测试集上性能不佳。相反,如果模型容量不足,它可能无法捕捉到数据的复杂模式,导致在训练集和测试集上的性能都较差,这被称为欠拟合。为了避免过拟合和欠拟合,通常需要采取如数据增强、正则化、调整模型结构等策略来平衡模型的容量和泛化能力。
2024-06-20 08:00:00
918
原创 抽查回归算法
抽查是一种发现哪种算法在机器学习问题中表现良好的方法。我们无法提前知道哪种算法最适合。我们必须尝试多种方法,并关注那些表现出最大潜力的方法。
2024-06-19 15:55:16
834
原创 如何保存和加载机器学习模型
寻找一个准确的机器学习模型并不是项目结束的时候。在本文中,我们将发现如何使用scikit-learn保存和加载机器学习模型。这让我们可以把模型保存到文件中,并在以后加载它来进行预测。
2024-06-19 11:00:00
344
原创 应用数学与机器学习基础 - 学习算法篇
深度学习是机器学习的一个特定分支。要想学好深度学习,必须对机器学习的基本原理有深刻的理解。首先,我们将介绍学习算法的定义,并介绍一个简单的示例:线性回归算法。接下来,我们会探讨拟合训练数据和泛化到新数据之间有哪些不同的挑战。大部分机器学习算法都有超参数(必须在学习算法外设定);我们将讨论如何使用额外的数据设置超参数。
2024-06-19 08:00:00
911
原创 梯度下降算法之随机梯度下降
梯度下降是搜索目标函数的最优值(最小值/最大值)的迭代优化过程。它是机器学习项目中最常用的改变模型参数以降低成本函数的方法之一。梯度下降的主要目标是识别在训练和测试数据集上提供最大精度的模型参数。在梯度下降中,梯度是指向函数在特定点最陡上升的一般方向的向量。通过在梯度的相反方向上移动,算法可以逐渐向函数的较低值下降,直到达到函数的最小值。
2024-06-18 17:00:00
952
原创 应用数学与机器学习基础 - 数值计算篇
机器学习算法通常需要大量的数值计算。这通常是指通过迭代地更新解来解决数学问题的算法,而不是解析地提供正确解的符号表达。常见的操作包括优化(找到最小化或最大化函数值的参数)和线性方程组的求解。对数字计算机来说实数无法在有限内存下精确表示,因此仅仅计算涉及实数的函数也是困难的。
2024-06-18 11:30:00
942
原创 数据挖掘中分类的基本概念
数据挖掘一般来说,数据挖掘是指挖掘或深入挖掘不同形式的数据,以获得模式,并获得关于该模式的知识。在数据挖掘过程中,首先对大型数据集进行排序,然后识别模式并建立关系,以执行数据分析并解决问题。分类是数据挖掘中的一项任务,它涉及根据数据集中每个实例的特征为其分配一个类标签。分类的目标是建立一个模型,根据新实例的特征准确预测其类别标签。
2024-06-18 09:57:03
589
原创 应用数学与机器学习基础 - 概率与信息论篇
序言概率论是用于表示不确定陈述的数学框架。它不仅提供了量化不确定的方法,也提供了用于导出新的不确定陈述的公理。在人工智能领域,我们主要有两种方式来使用概率论。首先,概率法则告诉我们AI系统应该如何推理,所以我们设计一些算法来计算或者近似由概率论导出的表达式。其次,我们可以用概率和统计从理论上分析我们提出的AI系统的行为。概率论是众多科学和工程学科的基本工具。概率论使我们能够做出不确定的陈述以及在不确定性存在的情况下推理,而信息论使我们能够量化概率分布中的不确定性总量。概率与信息论1. 为什
2024-06-18 08:15:00
1094
原创 机器学习常用基本数学符号概括总结
在阅读机器学习的描述时,我们无法避免遇到各种数学符号。通常只要方程中的一个项或一个符号片段即可完全影响我们对整个过程的理解。这可能非常令人沮丧,尤其是适用于来自开发领域的机器学习初学者。如果我们了解数学符号的一些基本领域和一些工作技巧,则可以取得进步。
2024-06-17 11:15:00
821
原创 机器学习中数据预处理介绍
为了从数据中获取知识和见解,数据科学集成统计分析、机器学习和计算机编程。它需要收集、净化非结构化数据,并将其转换为可分析和可视化的形式。数据科学家使用多种方法和工具处理和分析数据,如统计模型、机器学习算法和数据可视化软件。数据科学旨在发现数据中的模式,这些模式有助于决策制定、流程改进和创造新机会。商业、工程和社会科学都包括在这个跨学科领域中。
2024-06-17 10:32:48
617
原创 应用数学与机器学习基础 - 线性代数篇
线性代数作为数学的一个分支,广泛用于科学和工程中。然而,因为线性代数主要是面向连续数学,而非离散数学,所以很多计算机科学家很少接触它。掌握好线性代数对于理解和从事机器学习算法相关工作是很有必要的,尤其对于深度学习而言。因此,在我们开始介绍深度学习之前,我们集中探讨一些必备的线性代数知识。
2024-06-17 08:00:00
1639
原创 机器学习常见数据处理方法
许多机器学习算法都会对数据做出假设。它通常是一个非常好的以这种方式准备数据的想法,以最好地将问题的结构暴露给我们打算使用机器学习的算法。
2024-06-16 17:25:34
267
原创 机器学习中回归技术的类型概括
决策树是一个类似流程图的树形结构,其中每个内部节点表示对属性的测试,每个分支表示测试的结果,每个叶节点(终端节点)保存一个类标签。因此,这里用于寻找模型权重和参数的技术依赖于特征的后验分布,这为基于该技术的回归模型提供了额外的稳定性因素。他用这个词来描述孩子的身高倾向于向人口均值回归的现象,意思是身高高于平均水平的父母往往会生出接近平均身高的孩子,而身高低于平均水平的父母往往会生出接近平均身高的孩子。梯度下降是一种迭代算法,它在使因变量的预测值和实际值之间的误差最小的方向上更新回归模型的参数。
2024-06-16 09:30:00
859
原创 机器学习中分类模型的实现
在数字化和智能化的浪潮中,机器学习技术已经渗透到我们生活的方方面面,而分类模型作为机器学习领域的重要分支,其应用更是广泛而深远。
2024-06-16 08:30:00
454
原创 如何通过Ensemble提高机器学习性能
每个模型都在其特有的数据子集上训练,并且最终的预测是所有模型预测的加权平均(通常是等权重的)。随机森林和极端随机树是更高级的版本,它们不仅随机选择数据样本,还随机选择特征(在随机森林中)或特征和数据的顺序(在极端随机树中),以此来增加模型的随机性和减少过拟合的风险。在实际应用中,这些方法通常需要调整一些参数,比如装袋的数量、树的最大深度、节点分裂的最小重要性等,以达到最佳的性能。提高模型的多样性:由于每棵树考虑的特征子集都是随机的,因此构建出来的树之间具有更多的多样性,这有助于提高整体模型的泛化能力。
2024-06-15 15:00:00
1743
原创 如何通过算法调优提高机器学习性能
机器学习模型是参数化的,以便其行为可以根据给定问题进行调整。模型可能有多个参数,找到最佳参数组合可以被视为一个搜索问题。
2024-06-15 10:25:45
409
原创 一个完整二分类机器学习案例
如何端到端解决预测建模机器学习问题?我们将通过一个案例研究Python中的分类预测建模问题,包括应用机器学习过程的每一步。通过本案例,我们使用Python解决了一个从端到端分类预测建模机器学习问题。算法调优(KNN的K=1良好,具有RBF内核的SVM 和 C=2.0是最好)通过此案例研究,向我们展示了特定机器学习的任务可以组合成一个完整的项目。最终确定模型(使用所有训练数据并使用验证数据集进行确认)如何使用集成方法和集成方法的调优来提高模型性能。使用标准化评估算法(KNN和SVM看起来不错)
2024-06-15 08:30:00
357
原创 深度学习之数学概念符号汇总
深度学习中的数学概念符号用于系统化和简化复杂的数学和计算过程。它们通过明确的符号表示,如向量、矩阵、张量等,以及相关的函数和运算符,为神经网络模型的定义、训练和应用提供了标准化的数学语言,使得深度学习算法更加易于理解和实现。
2024-06-14 20:29:49
432
原创 如何自动化机器学习工作流程
在机器学习项目中,有一些标准的流程可以自动化。在Python scikit-learn中,Pipeline有助于明确定义和自动化这些流程。通过本文,我们将了解scikit-learn中的Pipeline以及如何自动化常见的机器学习工作流程。
2024-06-14 11:30:00
775
原创 机器学习数学导图
如果我们想在机器学习领域建立自己的职业生涯,作为一名初学者或寻求职业转变的专业人士,那么在直接进入机器学习之前,我们必须了解一些数学概念,包括统计、概率分布、线性代数和矩阵、回归、几何、降维、微积分等。
2024-06-14 09:55:31
602
原创 一个简单机器学习项目案例
首先,我们需要了解预测建模机器学习项目的所有部分是如何真正结合在一起的。接着,我们将使用Python完成一个简单机器学习项目。下载并安装Python SciPy,并获取Python中用于机器学习的最有用包。加载一个数据集,并使用统计摘要和数据可视化来理解其结构。创建6个机器学习模型,选择最佳模型并保存以便后续使用。
2024-06-14 08:15:00
243
原创 比较机器学习算法
比较多种不同机器学习算法的性能非常重要。我们将了解如何创建测试工具进行比较Python中使用scikit-learn的多种不同的机器学习算法。我们可以用这个测试工具作为自己的机器学习问题的模板,并添加更多不同的要比较的算法。通过本文后,我们将了解:1. 如何制定一个实验直接比较机器学习算法。2. 一个可重用的模板,用于评估一个数据集上多个算法性能。3. 在比较算法性能时如何报告和可视化结果。当我们在处理一个机器学习项目时,通常会有多个好的模型可以选择。每个模型都将具有不同的性能特征。
2024-06-14 03:45:00
340
原创 机器学习中回归技术的类型概括
机器学习中的回归技术主要用于预测连续型数值。该技术通过拟合数据点来建立模型,并寻求最小化预测值与真实值之间的误差。常见的回归技术包括线性回归、逻辑回归(尽管它常用于分类,但名字中包含“回归”)、岭回归等。其中,线性回归通过建立线性方程来预测数值,而岭回归则通过引入L2正则化来防止过拟合。这些技术在实际应用中具有广泛的适用性,如金融预测、房价评估等。
2024-06-13 14:46:48
536
原创 生物神经元与人工神经元区别
有没有想过建造大脑是什么样子的,这些东西是如何工作的,或者它们是做什么的?让我们看看节点如何与神经元通信,以及人工神经网络和生物神经网络之间的一些区别。
2024-06-13 11:05:30
243
原创 深度学习一站式指南
深度学习是机器学习完全基于人工神经网络由于神经网络将模仿人类大脑,因此深度学习也是对人类大脑的一种模仿。本文涵盖了基本和高级概念,为初学者和专业人士提供了对技术的全面了解。无论你是深度学习的新手还是有一定经验的人,都将帮助你轻松了解深度学习的不同技术。
2024-06-13 10:11:25
789
原创 如何创建一个机器学习项目
我们可以阅读有关机器学习的内容,还可以通过一个具体项目思考模型如何使用,挑战机器学习中的各种假设,这可使我们在整个项目中的各个方面都变得熟练。这个过程不是线性的,而是循环的。会在步骤之间循环,并且在步骤3-4或3-4-5之间花费大部分时间,直到达到足够的准确度,或者时间耗尽。经常回顾这一步,并与下一步循环,直到收敛于一组算法和数据表示,这些算法和数据表示能够产生准确或足够准确的模型以继续前进。对于给定的问题,我们很可能会在这步和前一步(步骤3)上花费大部分时间,直到找到一组表现良好的3到5个机器学习算法。
2024-06-13 08:00:00
975
机器学习中线性代数相关概念
2024-06-17
使用Python快速入门机器学习
2024-06-17
大数据之数据分类指南概览
2024-06-14
大数据之政务数据开放共享
2024-06-14
大数据之接口框架基本要求
2024-06-14
大数据之工业应用参考架构
2024-06-14
大数据之存储与处理系统功能要求
2024-06-14
大数据之分析系统框架各功能模块建设要求
2024-06-14
信息系统项目管理师第四版 内容结构知识点整理
2024-06-13
老生常谈的24种Java设计模式
2024-06-13
TOGAF10标准英文版
2024-06-13
项目管理知识体系指南(PMBOK指南)结构及其内容
2024-06-13
项目启动过程中所用工具汇总
2024-06-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人