![](https://img-blog.csdnimg.cn/direct/97cf4d75b5de4233baf006f1a3ca2a0b.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
政安晨的机器学习笔记
文章平均质量分 94
机器学习是通过算法让数据具有意义的技术,是构建从数据中进行学习的人工智能应用的路径,是计算机科学中最令人兴奋的领域。它包括了深度学习、强化学习等等,未来在该领域一定还会出现更多优秀的方法,推动人类不断前行!
政安晨
专注于人工智能感知交互技术的研究与产品实践,双一流大学软件领域硕士,数十项发明专利授权,18年+行业经验。
展开
-
专栏目录【政安晨的机器学习笔记】
本篇是作者政安晨的专栏《政安晨的机器学习笔记》的总纲,专栏文章不断更新,这篇目录总纲也会随着专栏不断更新。目录分类根据文章对不同层次用户的使用功效划分。原创 2024-04-28 18:01:07 · 688 阅读 · 1 评论 -
政安晨:【Keras机器学习示例演绎】(五十五)—— 使用 TabTransformer 学习结构化数据
本文目标:利用上下文嵌入进行结构化数据分类。本示例演示了如何使用 TabTransformer 进行结构化数据分类,TabTransformer 是一种用于监督和半监督学习的深度表格数据建模架构。 TabTransformer 建立在基于自我注意的变换器基础之上。 转换器层将分类特征嵌入转换为稳健的上下文嵌入,以实现更高的预测准确性。原创 2024-07-16 05:45:00 · 1360 阅读 · 0 评论 -
政安晨:【Keras机器学习示例演绎】(五十四)—— 使用神经决策森林进行分类
本文目标:如何为深度神经网络的端到端学习训练可微分决策树。本示例提供了 P. Kontschieder 等人提出的用于结构化数据分类的深度神经决策林模型的实现。 它演示了如何建立一个随机可变的决策树模型,对其进行端到端训练,并将决策树与深度表示学习统一起来。原创 2024-07-11 05:45:00 · 722 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(十四)—— 神经网络剪枝和模型选择
人工智能神经网络剪枝是一种优化神经网络模型的方法,通过删除网络中的一些神经元或连接来减小网络的复杂度。剪枝的目的是提高模型的效率和性能,并减少其在计算和存储方面的需求。神经网络剪枝的基本方法是根据一定的剪枝准则来选择要删除的神经元或连接。常见的剪枝准则包括权重剪枝、结构剪枝和一些启发式方法。权重剪枝通过将权重接近于零的连接删除,来减少模型的参数个数。结构剪枝则是通过删除整个神经元或神经元组来减小模型的大小。启发式方法是基于一些规则或经验,根据网络的特定性质进行剪枝。原创 2024-04-27 05:45:00 · 1448 阅读 · 1 评论 -
政安晨:【深度学习神经网络基础】(十三)—— 卷积神经网络
卷积神经网络(Convolutional Neural Network,CNN)是一种常用于处理具有网格结构数据的神经网络模型。它在人工智能机器学习中被广泛应用于计算机视觉和图像识别任务。CNN的核心思想是通过卷积层和池化层来提取图像特征,然后通过全连接层和输出层进行分类或回归。具体而言,CNN通过使用多个卷积核来对输入图像进行卷积操作,这样可以从原始图像中提取出不同的特征。卷积操作可以捕捉到图像中的空间局部关系,例如边缘、纹理等信息。原创 2024-04-25 06:15:00 · 676 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(十二)—— 深度学习概要
深度学习是人工智能领域的一个重要分支,它主要通过神经网络模型来实现复杂的学习任务。在深度学习中,神经网络通常由多个层次组成,每一层都包含多个神经元,这些神经元通过改变权重和偏差值来学习输入数据的特征。深度学习的一个重要特点是它能够自动地从大量的数据中学习和提取特征,无需手工设计特征提取器。它利用了反向传播算法来计算误差梯度,进而通过梯度下降来优化神经网络的权重和偏差值,从而使得网络能够更好地逼近目标函数。原创 2024-04-21 05:45:00 · 704 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(十一)—— 激活函数的导数以及在反向传播中的应用
反向传播过程需要激活函数的导数,它们通常确定反向传播过程将如何执行。大多数现代深度神经网络都使用线性、Softmax和ReLU激活函数。我们还会探讨S型和双曲正切激活函数的导数,以便理解ReLU激活函数为何表现如此出色。原创 2024-04-18 05:45:00 · 889 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(十)—— 反向传播网络中计算输出节点增量与计算剩余节点增量
为神经网络中的每个节点(神经元)计算一个常数值。我们将从输出节点开始,然后逐步通过神经网络反向传播。“反向传播”一词就来自这个过程。我们最初计算输出神经元的误差,然后通过神经网络向后传播这些误差。节点增量是我们将为每个节点计算的值。层增量也描述了该值,因为我们可以一次计算一层的增量。在计算输出节点或内部节点时,确定节点增量的方法可能会有所不同。首先计算输出节点,并考虑神经网络的误差函数。原创 2024-04-17 09:58:42 · 947 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(九)—— 在深度学习神经网络反向传播训练中理解梯度
在深度学习神经网络中,反向传播是一种用来训练神经网络的常用方法。它通过计算损失函数对于网络参数的梯度,然后使用梯度下降算法更新参数,以降低损失函数的值。梯度表示了函数在某一点上的变化率和方向,对于神经网络而言,梯度表示了损失函数对于网络参数的变化率和方向。在反向传播过程中,首先通过前向传播计算出网络的输出和损失函数的值,然后利用链式法则逐层计算参数的梯度。具体来说,反向传播的过程可以分为两个步骤:反向传播和参数更新。原创 2024-04-16 18:25:04 · 904 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(八)—— 神经网络评估回归与模拟退火训练
深度学习神经网络的评估回归是一种用于评估网络性能的方法。在回归问题中,神经网络被用于将输入数据映射到连续的输出。模拟退火是一种用于训练深度学习神经网络的优化算法。原创 2024-04-16 08:04:43 · 1364 阅读 · 1 评论 -
政安晨:【深度学习神经网络基础】(七)—— 神经网络评估分类
到目前为止,我们已经看到了如何根据权重来计算神经网络的输出,但是,我们还没有看到这些权重的实际来源。训练是调整神经网络权重以产生所需输出的过程。训练利用了评估,即根据预期输出评估神经网络输出的过程。由于神经网络可以通过许多不同的方式进行训练与评估,因此我们需要一种一致的方法来对它们进行判断。目标函数评估神经网络并返回得分,训练会根据得分调整神经网络,以便取得更好的结果。通常,目标函数希望得分较低,其试图获得较低得分的过程称为最小化。你可能会设定最大化的问题,此时目标函数需要较高的得分。原创 2024-04-15 08:54:55 · 1210 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(六)—— 前馈神经网络
由于其用途广泛,前馈神经网络架构非常受欢迎。因此,我们将探索如何训练它,以及它如何处理模式。“前馈”一词描述了该神经网络如何处理和记忆模式。在前馈神经网络中,神经网络的每一层都包含到下一层的连接。如这些连接从输入向前延伸到隐藏层,但是没有向后的连接。后面,我们也将分析前馈神经网络的结构及其记忆模式的方式。我们可以使用多种反向传播算法中的各种技术来训练前馈神经网络,这是一种有监督的训练形式。本文重点介绍应用优化算法来训练神经网络的权重。原创 2024-04-11 06:15:00 · 729 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(五)—— 霍普菲尔德神经网络和玻尔兹曼机
这两种经典神经网络虽然都没有在现代AI应用程序中广泛使用,但两者都是现代算法的基础。玻尔兹曼机构成了深度信念神经网络(Deep Belief Neural Network,DBNN)的基础,它是深度学习的基本算法之一。霍普菲尔德神经网络是一种非常简单的神经网络,它具备许多特性,这些特性也是更复杂的前馈神经网络所具有的。玻尔兹曼机是一种神经网络架构,它与霍普菲尔德神经网络有许多共同的特征。但是,与霍普菲尔德神经网络不同,你可以利用玻尔兹曼机堆叠深度信念神经网络。原创 2024-04-10 06:15:00 · 1656 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(四)—— 自组织映射
本文介绍当今仍然有用的、最早的一种神经网络。由于神经元可以通过各种方式连接,因此存在许多不同的神经网络架构。我们从自组织映射(Self-Organizing Map,SOM)开始研究经典神经网络。人们利用SOM,将神经网络的输入数据分类。将训练数据和希望将这些数据分类的组数一同提供给SOM。在训练期间,SOM会将这些数据分组。特征最相似的数据将被分在一起。这个过程与聚类算法(如K均值)非常相似。但是,与仅对一组初始数据进行分组的K均值不同,SOM可以继续对除用于训练的初始数据集之外的新数据进行分类。原创 2024-04-09 05:45:00 · 736 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(三)—— 激活函数
本文目标:介绍激活函数。在神经网络编程中,激活函数或传递函数为神经元的输出建立界限。神经网络可以使用许多不同的激活函数。我们将在本文中讨论最常见的激活函数。为神经网络选择激活函数是一个重要的考虑,因为它会影响输入数据格式化的方式。在本文中,我们将指导你选择激活函数。原创 2024-04-07 09:07:54 · 1718 阅读 · 0 评论 -
政安晨:【深度学习神经网络基础】(二)—— 神经元与层
神经元是深度学习神经网络中的基本单元,模拟了生物神经系统中的神经元。它接收输入信号,并通过激活函数进行非线性转换,然后将转换后的信号传递给下一层神经元或输出。神经元具有一组可学习的权重,它们用于加权输入信号。神经网络的层是由多个神经元组成的,这些神经元之间相互连接。在神经网络中,通常有输入层、隐藏层和输出层。输入层接收外部输入数据,并将其传递给下一层。隐藏层是介于输入层和输出层之间的层,根据不同的网络结构可以有多个隐藏层。输出层则产生最终的预测结果。原创 2024-03-28 06:00:00 · 1542 阅读 · 1 评论 -
政安晨:【深度学习神经网络基础】(一)—— 逐本溯源
神经网络的出现可追溯到20世纪40年代,因此,其有相当长的发展历史。咱们将介绍神经网络的发展历史,因为你需要了解一些术语。激活函数是其中一个很好的例子,它可以缩放神经网络中神经元的值。阈值激活函数是研究人员引入了神经网络时的早期选择,而后S型激活函数、双曲正切激活函数、修正线性单元(Rectified Linear Unit,ReLU)激活函数等相继被提出。虽然目前大多数文献都建议仅使用ReLU激活函数,但你需要了解S型激活函数和双曲正切激活函数,才能理解ReLU激活函数的优势。原创 2024-03-27 09:25:08 · 1375 阅读 · 2 评论 -
政安晨:【深度学习处理实践】(九)—— Transformer架构
Transformer是一种架构,用于在自然语言处理(NLP)和其他任务中进行序列到序列(seq2seq)学习。它于2017年由Vaswani等人提出,成为深度学习领域的重要里程碑。Transformer的核心思想是完全摒弃传统的循环神经网络(RNN)结构,并引入了自注意力机制来处理输入序列。它由编码器和解码器两部分组成,可用于多种任务,如机器翻译、文本生成和语言模型等。原创 2024-03-17 06:00:00 · 1337 阅读 · 1 评论 -
政安晨:【深度学习处理实践】(八)—— 表示单词组的两种方法:集合和序列
机器学习模型如何表示单个单词,这是一个相对没有争议的问题:它是分类特征(来自预定义集合的值),我们知道如何处理。它应该被编码为特征空间中的维度,或者类别向量(本例中为词向量)。然而,一个更难回答的问题是,如何对单词组成句子的方式进行编码,即如何对词序进行编码。与时间序列的时间步不同,句子中的单词没有一个自然、标准的顺序。不同语言对单词的排列方式非常不同,比如英语的句子结构与日语就有很大不同。即使在同一门语言中,通常也可以略微重新排列单词来表达同样的含义。原创 2024-03-16 17:02:53 · 1176 阅读 · 1 评论 -
政安晨:【深度学习处理实践】(七)—— 文本数据预处理
在深度学习中,文本数据预处理是指将原始文本数据转换为可供模型训练使用的向量表示。首先,需要对文本进行分词,将一个句子或段落分解为词汇单元。然后,需要构建词汇表。接下来,将分词后的文本映射为词汇表中的编号。然后,需要对词汇序列进行统一长度的处理。最后,将处理后的词汇序列转换为向量表示。原创 2024-03-14 09:31:31 · 1138 阅读 · 1 评论 -
政安晨:【深度学习处理实践】(六)—— RNN的高级用法
深度学习处理实践中,循环神经网络(RNN)有许多高级用法。1.长短期记忆网络(LSTM):LSTM 是一种特殊类型的 RNN,通过使用门控单元来解决传统 RNN 中的梯度消失和梯度爆炸问题。2.双向循环神经网络(BiRNN):BiRNN 是一种结合了正向和反向 RNN 的模型。3.注意力机制(Attention):注意力机制允许模型根据输入序列的不同片段赋予不同的重要性,从而更好地处理长序列信息。4.多层堆叠RNN:多层堆叠 RNN 是将多个 RNN 层叠在一起,使得模型能够学习更复杂的特征表示。原创 2024-03-13 06:00:00 · 829 阅读 · 1 评论 -
政安晨:【深度学习处理实践】(五)—— 初识RNN-循环神经网络
RNN(循环神经网络)是一种在深度学习中常用的神经网络结构,用于处理序列数据。与传统的前馈神经网络不同,RNN通过引入循环连接在网络中保留了历史信息。RNN中的每个神经元都有一个隐藏状态,它会根据当前输入和前一个时间步的隐藏状态来计算输出和下一个时间步的隐藏状态。这种循环的结构使得RNN可以在序列数据的处理中考虑到上下文信息。对于每个时间步,RNN都会根据当前输入和前一个时间步的隐藏状态来计算当前时间步的输出和隐藏状态,然后将当前时间步的隐藏状态传递给下一个时间步。原创 2024-03-11 06:00:00 · 1102 阅读 · 1 评论 -
政安晨:【深度学习处理实践】(四)—— 实施一个温度预测示例
在开始使用像黑盒子一样的深度学习模型解决温度预测问题之前,我们先尝试一种基于常识的简单方法。它可以作为一种合理性检查,还可以建立一个基准,更高级的机器学习模型需要超越这个基准才能证明其有效性。对于一个尚没有已知解决方案的新问题,这种基于常识的基准很有用。对于一个尚没有已知解决方案的新问题,这种基于常识的基准很有用。一个经典的例子是不平衡分类任务,其中某些类别比其他类别更常见。如果数据集中包含90%的类别A样本和10%的类别B样本,那么对于分类任务,一种基于常识的方法就是对新样本始终预测类别A。原创 2024-03-10 06:00:00 · 1127 阅读 · 1 评论 -
政安晨:【深度学习处理实践】(三)—— 处理时间序列的数据准备
在深度学习中,对时间序列的处理主要涉及到以下几个方面:1.序列建模:深度学习可以用于对时间序列进行建模。2.序列预测:深度学习也可以用于时间序列的预测。3.应用领域:深度学习在时间序列的处理中被广泛应用于各个领域。总的来说,深度学习在时间序列的处理中能够利用神经网络的强大表达能力,通过学习历史数据的模式和规律,来进行序列的建模和预测。这使得深度学习成为处理时间序列数据的一种强大工具。原创 2024-03-09 06:00:00 · 1113 阅读 · 1 评论 -
政安晨:【深度学习处理实践】(二)—— 最大汇聚运算
最大汇聚运算(Max Pooling Operation)是深度学习领域卷积神经网络常用的一种汇聚运算方式。在卷积神经网络中,经过一系列卷积层和激活函数层后,数据在空间尺寸上逐渐减小,特征图的深度也逐渐增加。为了降低数据尺寸并提取最重要的特征,我们需要对特征图进行汇聚运算。最大汇聚运算的原理是在一个固定大小的滑动窗口内找到最大的数值作为输出。原创 2024-03-08 06:00:00 · 1079 阅读 · 1 评论 -
政安晨:【深度学习处理实践】(一)—— 卷积神经网络入门
深度学习的卷积神经网络(Convolutional Neural Network,简称CNN)是一种广泛应用于图像识别、计算机视觉和自然语言处理等领域的深度学习模型。CNN的主要特点是它能够自动从原始数据中学习特征表示,而无需手动特征工程。这是通过使用卷积层、池化层和全连接层来实现的。卷积层是CNN的核心,它使用一系列可学习的滤波器(也称为卷积核)来对输入数据进行卷积运算。这种卷积运算可以捕捉到数据中的局部空间关系,从而提取出不同的特征,例如边缘、纹理和形状。原创 2024-03-07 06:00:00 · 1253 阅读 · 1 评论 -
政安晨:【机器学习基础】(四)—— 通用工作流程(万五千字长文)
根据我这个系列的前三篇文章,您会发现您已经了解并掌握了一些机器学习的基础能力,现在让咱们整体看一下机器学习的通用工作流程到底都是些什么?咱们在这篇文章中将了解到:如何定义一个机器学习问题?如何开发一个工作模型?如何在生产环境中部署和维护模型?整个机器学习的工作流程是一个迭代过程,需要不断地进行调整、优化和更新,以不断提高模型的性能和适应问题的需求。在以前文章的示例中,我们假设已经拥有了一个标记好的数据集,可以立即开始训练模型。但是,现实世界中的情况往往并非如此。原创 2024-02-28 06:00:00 · 1130 阅读 · 1 评论 -
政安晨:【机器学习基础】(三)—— 提高泛化能力
根据我这个系列的前两篇文章,您会发现您的模型已经表现出了一定的泛化能力,并且能够过拟合,接下来应该专注于将泛化能力最大化。深度学习的泛化来源于数据的潜在结构。提高数据泛化潜力的一个特别重要的方法就是特征工程(feature engineering)。对于大多数机器学习问题,特征工程是成功的关键因素。特征工程是指将数据输入模型之前,利用你自己关于数据和机器学习算法(这里指神经网络)的知识对数据进行硬编码的变换(这种变换不是模型学到的),以改善算法的效果。原创 2024-02-27 06:00:00 · 1945 阅读 · 2 评论 -
政安晨:【机器学习基础】(二)—— 评估机器学习模型&改进
根据前面我的文章看来,咱们只能控制可以观察到的东西。因为您的目标是开发出能够成功泛化到新数据的模型,所以能够可靠地衡量模型泛化能力是至关重要的,咱们这篇文章将正式介绍评估机器学习模型的各种方法。原创 2024-02-26 06:00:00 · 1743 阅读 · 1 评论 -
政安晨:【机器学习基础】(一)—— 泛化:机器学习的目标
泛化是机器学习中的基本概念之一。它指的是通过学习从训练数据中得到的模型在未见过的新数据上的表现能力。在机器学习中,我们通过使用训练数据来训练模型,得到了一种从输入到输出的映射关系。然而,我们的目标并不只是在训练数据上得到较好的预测结果,而是希望模型能够在未见过的新数据上也能表现得很好。泛化能力是评估模型的重要指标之一。一个具有良好泛化能力的模型应该能够对未见过的数据进行准确的预测,而不仅仅是在训练数据上表现良好。总之,泛化是机器学习中非常重要的概念,它涉及模型在未见过的新数据上的预测能力。原创 2024-02-25 06:00:00 · 1312 阅读 · 3 评论 -
政安晨:【完全零基础】认知人工智能(五)【超级简单】的【机器学习神经网络】 —— 数据训练
作为这个系列文章的最后一篇,咱们先回顾一下建立神经网络的整体步骤,以实现对机器学习神经网络的整体认知。数据训练部分的目的是通过大量的数据和反向传播算法来调整网络参数,使得网络能够学习到输入数据的特征和模式,从而实现对未知数据的准确预测或分类。在人工智能领域中,机器学习神经网络的数据训练部分是指通过将大量的输入数据输入到神经网络中,利用反向传播算法来调整网络中的参数,从而使得网络能够学习到输入数据的特征和模式。原创 2024-02-20 06:00:00 · 918 阅读 · 1 评论 -
政安晨:【完全零基础】认知人工智能(四)【超级简单】的【机器学习神经网络】—— 权重矩阵
在人工智能神经网络中,矩阵乘法是神经网络中非常重要的操作之一。1. 在前向传播过程中,输入与权重矩阵相乘,并经过激活函数,得到神经网络的输出。2. 在神经网络中,我们也需要通过反向传播算法来调整权重矩阵,使得网络的输出与目标输出尽可能接近。矩阵乘法反向传播误差就是在反向传播过程中计算误差梯度的一种方法。具体而言,它使用了链式法则和矩阵乘法的运算规则。梯度下降法是求解函数最小值的一种很好的办法,当函数非常复杂困难,并且不能轻易使用数学代数求解函数时,这种方法却发挥了很好的作用。原创 2024-02-19 10:23:28 · 1369 阅读 · 1 评论 -
政安晨:【完全零基础】认知人工智能(三)【超级简单】的【机器学习神经网络】—— 三层神经网络示例
咱们还没有演示过使用矩阵进行计算得到经由神经网络馈送的信号,我们也没有演示过多于2层的神经网络示例,在这篇文章里,咱们将构建一个三层神经网络的示例,并观察如何处理中间层的输出以作为最后第三层的输入,可以想象到这个示例估计会非常有趣。为什么用3层神经网络呢?第一层为输入层,最后一层为输出层,中间层我们称之为隐藏层。虽然隐藏层听起来很神秘、很黑暗,但是很遗憾,我们这样称呼中间层,其理由并不神秘:中间层的输出不需要很明显地表示为输出,因此我们称之为“隐藏”层。原创 2024-02-19 06:00:00 · 1256 阅读 · 1 评论 -
政安晨:【完全零基础】认知人工智能(二)【超级简单】的【机器学习神经网络】—— 底层算法
神经元是神经网络的基本组成单元,其底层算法主要包括输入加权和激活函数两个部分。每个神经元都与其前后层的每个神经元相互连接的三层神经元,看起来让人相当惊奇。但是,计算信号如何经过一层一层的神经元,从输入变成输出,这个过程似乎有点令人生畏,这好像是一种非常艰苦的工作。即使此后,我们将使用计算机做这些工作,但是我认为,这仍然是一项艰苦的工作。但是这对说明神经网络如何工作非常重要,这样我们就可以知道在神经网络内部发生了什么事情。咱们尝试使用只有两层、每层两个神经元的较小的神经网络,来演绎神经元的底层算法。原创 2024-02-18 12:24:16 · 1228 阅读 · 1 评论 -
政安晨:【完全零基础】认知人工智能(一)【超级简单】的【机器学习神经网络】 —— 预测机
很多小伙伴们很想亲近人工智能与机器学习领域,然而这个领域里的核心理论、算法、工具给人感觉都太过“高冷”,让很多小伙伴们望而却步,导致一直无法入门。如何捅破这层窗户纸?让高冷的不再高冷,让神秘的不再神秘!不要怕它,伙计们,咱们以这个小系列文章零基础入门。原创 2024-02-18 06:00:00 · 1537 阅读 · 3 评论 -
政安晨:快速学会~机器学习的Pandas数据技能(六)(数据类型和缺失值)
在数据分析中,了解数据的类型是非常重要的。数据类型决定了可以对数据进行哪些操作,以及如何对数据进行分析和处理。原创 2024-02-09 11:58:27 · 920 阅读 · 1 评论 -
政安晨:快速学会~机器学习的Pandas数据技能(五)(分组和排序)
提升您的洞察力水平,数据集越复杂,这一点就越重要。映射允许我们逐个值地转换DataFrame或Series中的数据,针对整个列进行操作。然而,通常我们希望对数据进行分组,然后对所在组进行特定操作。正如你将学到的,我们可以通过groupby()操作来实现这一点。我们还将涵盖一些额外的主题,例如更复杂的索引DataFrame的方式,以及如何对数据进行排序。原创 2024-02-09 10:07:55 · 856 阅读 · 1 评论 -
政安晨:快速学会~机器学习的Pandas数据技能(四)(汇总与映射)
在上一篇文章中,我们学习了如何从DataFrame或Series中选择相关数据。从我们的数据表示中选择正确的数据对于完成工作非常重要,正如我们在练习中所演示的那样。然而,数据并不总是以我们想要的格式直接从内存中出来。有时我们需要做一些额外的工作来重新格式化数据以适应当前的任务。本篇将介绍我们可以应用于数据的不同操作,以使输入数据“恰到好处”。原创 2024-02-08 20:14:59 · 957 阅读 · 1 评论 -
政安晨:快速学会~机器学习的Pandas数据技能(三)(重命名与合并)
使用机器学习处理数据的第一步就得先理解它,咱们现在就帮助它们一起理解起来。(本篇文章这次换一套数据集,数据文件可以在文章头部下载,并保存至您的虚拟环境的目录中)往往数据会给我们带来列名、索引名或其他命名约定,而我们对此并不满意。在这种情况下,你会学习如何使用pandas函数将有问题的条目的名称更改为更好的名称。你还将探索如何将多个DataFrame和/或Series的数据合并在一起。原创 2024-02-08 19:28:58 · 763 阅读 · 1 评论 -
政安晨:快速学会~机器学习的Pandas数据技能(二)(索引、选择与赋值)
今天这篇文章里讲到的操作,专业的数据科学家每天都会执行这个动作数十次。你当然也可以做到!选择pandas DataFrame或Series中的特定值进行操作是几乎任何数据操作中的一个隐含步骤,因此在使用Python处理数据时,你需要首先学习如何快速有效地选择与你相关的数据点。原创 2024-02-08 12:45:12 · 1001 阅读 · 1 评论