只有左边一个小酒窝-CSDN博客

原创（二十一）YOLO 全解析：从实时目标检测到多任务视觉智能

YOLOv8通过模块化架构和多任务设计，在保持实时性的同时拓展了应用边界，其核心思想是通过。YOLOv8在架构上延续了YOLO系列“端到端、单阶段检测”的核心思想，但通过。平衡精度与效率，为端到端视觉任务提供了更灵活的解决方案。YOLOv8的工作流程可分为。

2025-06-24 17:08:56 1434

原创（二十）反向传播算法：神经网络的“纠错神器”（白话版）

反向传播就是神经网络的“复盘工具”：先算错多少，再从后往前拆锅，算出每个参数该背多少责任，最后按责任大小调整参数，让下次预测更准——和你考试后总结错题、下次改进的逻辑一模一样~

2025-06-19 22:23:55 939

原创（十九）深度学习中的 RNN 架构解析：TensorFlow 实现情感分析与股价预测

TensorFlow中的循环神经网络（RNN）是处理序列数据的强大工具，下面为你详细介绍其核心概念、实现方式及应用场景。RNN通过隐藏状态hh_{t-1}W_xW_hbactivationtanhReLURNN的核心优势是能够处理序列数据，但标准RNN存在梯度消失/爆炸问题，导致难以学习长距离依赖关系。这也是LSTM和GRU等改进模型出现的原因。TensorFlow提供了多种RNN层，可通过。

2025-06-18 21:44:19 1054

从理解到创造的技术进化，不仅改变了信息处理的方式，更引发了对“语言智能”与“人类独特性”的深层思考。从技术演进看，这一过程正从“基于规则的浅层分析”走向“数据驱动的深层语义建模”，但距离真正的“理解”仍有差距——人类理解语言时依赖的情感、经验和世界知识，仍是NLP模型难以完全模拟的“认知黑箱”。自然语言处理技术的理解与创造能力相互融合、双向赋能，这一特性使其在工业生产与艺术创作等领域展现出强大的渗透力，从效率驱动的工业化场景，到灵感迸发的艺术创作场景，NLP正在重塑各个行业的运行模式与创新边界。

2025-06-17 21:52:18 1506

原创（十七）深度学习之线性代数：核心概念与应用解析

线性代数贯穿深度学习的模型设计、计算优化与理论分析，从底层的矩阵运算到高层的算法逻辑，其核心概念（如矩阵乘法、特征分解、范数）为深度学习提供了数学工具和优化思路。CNN的正向传播是将输入图像通过多层网络结构逐步提取特征，并最终生成分类结果的过程，其核心是线性代数运算与非线性激活的结合。从数据表示到优化算法，其思想贯穿深度学习全流程。通过线性代数的高效运算，CNN能够在GPU/TPU等硬件上实现并行加速，这也是深度学习框架（如PyTorch、TensorFlow）底层依赖线性代数库（如BLAS）的核心原因。

2025-06-16 20:47:30 1465 1

原创（十六）GRU 与 LSTM 的门控奥秘：长期依赖捕捉中的遗忘 - 更新机制对比

LSTM的“信息高速公路”机制LSTM通过独立的细胞状态（Cell State）传递长期信息，该状态可视为“直接通路”，允许信息跨越多个时间步而不被中间计算过度修改。例如：GRU的“合并路径”限制GRU无独立细胞状态，仅通过隐藏状态 hth_tht 同时承载短期与长期信息。其更新式 ht=(1−zt)⊙ht−1+zt⊙h~th_t = (1-z_t) \odot h_{t-1} + z_t \odot \tilde{h}_tht=(1−zt)⊙ht−1+zt⊙h~t 中：LSTM的“精准阀

2025-06-15 23:26:22 1520

原创（十五）深入浅出神经网络：从生物原型到代码实现

神经网络（Neural Network）作为深度学习的核心架构，已经在图像识别、自然语言处理和自动驾驶等领域取得了突破性进展。本文将从生物神经网络的基本原理出发，逐步解析人工神经网络的数学模型，并通过Python代码实现一个简单的手写数字识别器。生物神经元的核心组成与功能生物神经元（Neuron）是神经系统的基本单元，其结构可分为三个主要部分，各部分的功能与信息传递流程如下：理解生物神经元的结构与工作原理，有助于更好地把握人工神经网络的设计逻辑——人工神经元通过数学模型抽象了生物神经元的核心功能，而深度学

2025-06-14 18:40:53 1043

原创（十四）自然语言处理中的深度学习：语言表征、模型架构与计算语言学基础

自然语言处理（Natural Language Processing, NLP）是人工智能领域的一个重要分支，致力于使计算机能够理解、生成和处理人类语言。它结合了语言学、计算机科学和机器学习等领域的技术，以实现对文本和语音的自动分析和生成。词性标注任务的目标是给定一个句子或文本，为其中的每个单词分配一个词性标签。例如，将句子 “The quick brown fox jumps over the lazy dog” 中的每个单词标注为名词（NN）、形容词（JJ）、动词（VB）等。

2025-06-13 22:31:34 1235

原创（十三）计算机视觉中的深度学习：特征表示、模型架构与视觉认知原理

计算机视觉（Computer Vision）是一门使计算机能够从图像或视频中获取、处理和理解视觉信息的学科。它结合了信号处理、机器学习和深度学习等领域的技术，以实现对图像和视频内容的自动分析和理解。图像分类任务是将图像分为预定义的类别。例如，将图像分类为猫、狗、汽车、飞机等。每个图像属于一个类别，模型需要学习从图像中提取特征并进行分类。目标检测任务的目标是在图像中识别和定位一个或多个目标对象，并标注其位置。通常使用边界框（bounding box）来表示目标的位置。

2025-06-12 22:23:02 1071

原创（十二）深度学习计算性能：硬件架构、算法效率与理论极限分析

在深度学习中，编译器和解释器是两种不同的执行模式，它们对模型的执行效率和灵活性有着重要影响。以下是关于编译器和解释器的详细介绍：符号式编程是一种通过定义计算图来表示程序执行流程的方式。在深度学习中，计算图由一系列节点组成，每个节点表示一个操作或张量。这种编程方式能够在执行前对整个计算过程进行优化，提高计算效率。符号式编程的主要特点包括：示例：MXNet的Symbol API1.2 命令式编程（Imperative Programming）命令式编程是一种逐条执行指令的编程方式，用户可以即时地执行操作并获

2025-06-12 14:14:30 1419

原创（十一）优化算法（Optimization）：深度学习训练中的收敛性分析与泛化理论

优化算法是深度学习中用于训练模型的关键组件，它们的目标是最小化模型的损失函数，从而提高模型的性能。不同的优化算法在收敛速度、稳定性和计算效率方面各有特点。以下是几种常见的优化算法及其详细内容。

2025-06-11 21:36:18 1246

原创（十）量子注意力机制：深度学习与量子计算的交叉融合探索

多头注意力（Multi-Head Attention）是Transformer模型中的关键组件，它通过多个注意力头来捕捉不同维度的信息，从而提高模型的表达能力和性能。这种机制能够使模型在不同的表示子空间中学习到不同的特征模式。自注意力机制的核心思想是通过计算序列中每个位置的查询（Query）、键（Key）和值（Value）向量之间的关系，来确定每个位置对其他位置的注意力权重。在传统的序列模型中，如循环神经网络（RNN），模型在处理每个时间步时，通常会使用固定长度的上下文（如前一个隐藏状态）来生成输出。

2025-06-11 21:01:09 1324

原创（九）现代循环神经网络（RNN）：从注意力增强到神经架构搜索的深度学习演进

现代循环神经网络的内容，将介绍几种先进的循环神经网络架构，包括门控循环单元（GRU）、长短期记忆网络（LSTM）的变体，以及注意力机制等。这些内容将帮助你更深入地理解循环神经网络的发展和应用。

2025-06-11 20:28:32 1541 2

原创（八）深度循环神经网络：长序列建模、注意力机制与多模态融合

循环神经网络（RNN）及其变体（LSTM 和 GRU）在处理序列数据方面具有独特的优势。RNN 通过循环连接捕捉序列中的时间依赖关系，LSTM 和 GRU 进一步解决了长序列中的梯度消失和爆炸问题。通过合理选择和优化这些模型，可以有效地解决各种序列建模任务。

2025-06-10 17:40:51 1544

原创（七）深度学习进阶：现代卷积神经网络技术解析与应用实践

在深入研究现代卷积神经网络（CNN）的发展历程，重点介绍几种具有里程碑意义的网络架构：AlexNet、VGG、GoogLeNet、ResNet和DenseNet。这些网络不仅在图像分类任务上取得了突破性进展，还为后续的深度学习研究奠定了基础。

2025-06-09 23:05:14 1479

原创（六）卷积神经网络：深度学习在计算机视觉中的应用

卷积神经网络（Convolutional Neural Network，CNN）是一类专门用于处理具有网格结构数据（如图像、音频）的深度学习模型。CNN 在图像识别、视频分析等领域取得了巨大成功，其独特的架构设计使其能够有效地提取数据中的空间和时间相关性。

2025-06-08 23:25:59 1942

原创（五）动手学深度学习计算：从数学原理到高效实现的全流程指南

在实际应用中，我们常常需要自定义层和块来实现特定的功能。PyTorch提供了灵活的API来创建自定义层和块。无参数层：实现不包含可学习参数的层，如激活函数层。return torch.sigmoid(x) # 示例：Sigmoid激活函数含参数层：实现包含可学习参数的层，如自定义的全连接层。组合层：将多个层组合成一个块，实现复杂的功能。return x层是深度学习模型的基本构建块，执行特定的计算任务。块是由多个层组成的模块，提高代码的可读性和可维护性。

2025-06-08 01:03:27 1052

原创（四）动手实现多层感知机：深度学习中的非线性建模实战

接下来，我们定义一个多层感知机模型。我们将实现一个包含一个隐藏层的MLP，隐藏层使用ReLU激活函数。# 转换为张量# 创建数据集和数据加载器# 定义模型self.hidden = nn.Linear(2, 4) # 输入特征维度为2，隐藏层维度为4self.output = nn.Linear(4, 2) # 隐藏层维度为4，输出维度为2x = torch.relu(self.hidden(x)) # 使用ReLU激活函数return x我们使用交叉熵损失函数和随机梯度下降优化器来训练模型。

2025-06-03 17:30:12 1359

原创（三）动手学线性神经网络：从数学原理到代码实现

定义线性回归模型的正向传播过程。这一步就是根据当前的权重向量计算预测值。# 定义线性回归模型选择均方误差（MSE）作为损失函数，它衡量了预测值与真实值之间的差异。# 定义均方误差损失函数使用小批量随机梯度下降法（Mini-batch Gradient Descent）来优化模型参数。我们手动计算梯度并更新参数。# 定义小批量随机梯度下降法m = len(y)# 打乱数据# 分成小批次# 正向传播# 计算梯度# 更新参数# 每隔一定迭代次数打印损失。

2025-06-03 16:46:03 1316

原创（二）开启深度学习动手之旅：先筑牢预备知识根基

通过对这些概念的深入理解，你可以更系统地掌握深度学习的预备知识，并为后续学习深度学习模型和算法打下坚实的基础。数据预处理的目的是将原始数据转化为适合模型训练的形式，提高模型的性能和泛化能力。线性代数提供了深度学习中数据表示和操作的数学工具，是理解模型结构和算法的基础。也是深度学习框架自动计算梯度的技术，极大地简化了模型训练过程中的梯度计算。数据操作是深度学习的基础，包括数据的创建、索引、切片、运算等操作。广播机制允许形状不同的数组进行运算，较小的数组会在较大的数组上广播。

2025-05-29 16:11:43 1297

原创（一）从理论到实践：开启深度学习动手之旅

随着计算机技术和数学理论的不断发展，人工神经网络的研究逐渐深入。然而，早期的人工神经网络由于计算能力有限、数据量不足等问题，发展相对缓慢。直到近年来，随着大规模数据集的出现、计算能力的显著提升（如 GPU 的广泛使用）以及深度学习算法的不断创新，深度学习才取得了爆炸性的进展，成为人工智能领域的热门研究方向。第1章引言部分主要帮助读者对机器学习和深度学习有一个初步的了解，为后续章节的深入学习奠定基础。这些例子表明，机器学习已经在很大程度上改变了人们的生活和工作方式，提高了效率和便利性。

2025-05-28 17:34:01 1205

原创（八）知识图谱之维护与更新

fill:#333;color:#333;color:#333;fill:none;是是否数据错误需求扩展数据监控有更新?增量抽取版本控制质量评估合格?更新知识图谱人工干预修正数据用户反馈收集问题分类触发审核流程调整知识建模知识图谱的维护是一个“动态监控-质量检测-人工干预-持续优化”的闭环过程，需结合自动化技术与人工经验，确保图谱始终准确、完整、可用。1. 维护流程核心环节与逻辑fill:#333;color:#333;color:#333;fill:none;是是。

2025-05-26 17:28:28 2483

原创（七）知识图谱之知识应用

知识图谱通过将领域知识结构化，为智能应用提供了强大的语义理解和推理能力。从简单的问答到复杂的决策支持，其核心在于**“实体-关系-属性”的灵活建模与多模态数据的深度融合**。随着AIGC（如ChatGPT辅助生成知识）和联邦学习（隐私保护下的跨机构建模）的发展，知识图谱将在更多垂直领域（如精准医疗、智能交通）发挥关键作用，推动人工智能从“感知”向“认知”迈进。

2025-05-26 17:15:31 2091

原创（六）知识图谱之知识推理

通过“机器代替部分人类思考”，让企业从“经验驱动”转向“知识驱动”，在降本增效的同时挖掘数据的隐藏价值。将实体和关系“翻译”成低维向量（如100维数字数组），通过向量空间的数学运算（如加法、距离计算）预测缺失关系，类似“图谱的单词嵌入（Word2Vec）”。通过这一过程，知识图谱从“一堆散落的知识点”升级为“能思考、会推理的智能体”，为问答系统、推荐引擎等应用提供更强大的支撑。知识推理是知识图谱的“灵魂”，它让静态的知识图谱从“一本厚重的百科全书”蜕变为“一个会思考的智能体”。

2025-05-26 16:15:59 1540

原创（五）知识图谱之知识存储

知识图谱以图结构（节点-边-属性）存储实体、关系及属性信息，图数据库的选择需综合考虑数据规模、查询需求、业务场景等因素。

2025-05-25 23:13:15 1768

原创（四）知识图谱之知识融合

在实际应用中，单一方法往往难以应对复杂的数据源差异（如命名歧义、属性缺失、语义多样性等），而混合方法通过融合不同技术，能够更灵活地处理各类对齐挑战。然后利用GNN模型，结合客户的地址、联系方式等属性，预测不同数据源中的客户是否为同一实体，解决“同一企业不同语言名称”（如“华为”与“Huawei”）的对齐问题。在电商平台的百万级商品对齐中，首先用预训练模型过滤掉90%的明确匹配/不匹配对，剩余10%的模糊对通过主动学习算法筛选出最具信息量的1%样本，由人工标注后用于微调模型，最终实现95%以上的对齐准确率。

2025-05-24 20:25:56 2422

原创（三）知识图谱之知识抽取

知识抽取的质量控制需贯穿“数据预处理→模型抽取→人工校验→迭代优化”全流程，通过。

2025-05-23 15:11:08 1853

原创（二）知识图谱之数据获取

在构建知识图谱时，数据获取是关键环节，涉及多源异构数据的收集与整合。首先，明确数据需求，如列出电影、演员、导演等实体的核心字段，并评估数据源的可行性与优先级。常用的数据源包括TMDB、IMDb、豆瓣电影和维基百科等。通过API调用（如TMDB API）获取结构化数据，并进行清洗与映射。对于IMDb等公开数据集，下载并解析TSV文件，整合电影、评分和人物信息。对于半结构化数据（如豆瓣电影评分），通过网页爬取技术提取评分、评分人数等字段。最终，将多源数据整合，为知识图谱的构建提供高质量的数据基础。

2025-05-22 21:41:17 2029

原创（一）知识图谱之知识建模

知识建模是构建知识图谱的核心步骤，主要用于定义数据结构、实体类型、属性及关系。

2025-05-22 21:20:07 1648

原创知识图谱构建方法

知识图谱的构建是一个“迭代优化”的过程，需结合领域特点选择合适的技术方案，并在实践中不断调整建模逻辑、优化抽取算法、提升数据质量。知识图谱的构建是一个复杂的系统性工程，涉及知识建模、数据获取、知识抽取、知识融合、知识存储、知识推理、知识应用及维护等多个环节。知识图谱的数据来源多样，需根据实体和关系类型收集相关数据，并处理数据的异构性（如结构化、半结构化、非结构化数据）。知识建模是构建知识图谱的第一步，旨在确定知识图谱的结构和语义，定义实体、关系、属性及其层次体系。

2025-05-21 22:54:35 3317

原创使用PaddleOCR读取pdf内容，输出txt文本

使用PaddleOCR将PDF内容转换为TXT文本的流程包括以下步骤：首先，安装必要的依赖库，如PaddleOCR、PyMuPDF和Pillow。接着，将PDF文件转换为图像，使用PyMuPDF提取每页内容并保存为JPEG格式。然后，通过PaddleOCR对图像进行文本识别，提取文字并保存为TXT文件。整个过程涉及PDF解析、图像处理和OCR识别，最终实现PDF内容的文本化输出。

2025-05-19 22:28:18 2296

原创基于当前主流技术框架，AI 大模型涉及的核心技术点分类整理

以上技术点覆盖了 AI 大模型从理论基础、模型架构、训练工程到伦理安全的全链条。实际应用中，不同领域（如 NLP、CV、多模态）会有技术侧重，且技术迭代速度极快（如 2023-2025 年 MoE、稀疏架构、量子-经典混合计算等方向发展迅速）。AI 大模型涉及的核心技术点分类整理（基于当前主流技术框架）。

2025-05-19 21:58:47 1116

原创使用PaddleOCR提取图片中的文字

PaddleOCR是基于PaddlePaddle深度学习框架的OCR工具，支持多语言文本识别。使用PaddleOCR提取图片中的文字主要包括以下步骤：首先安装PaddleOCR及其依赖项，然后在Python脚本中导入并初始化OCR模型。加载图片后，使用PaddleOCR进行文字识别，识别结果包含每行文字及其位置信息。可以通过解析结果获取文字内容和置信度，并将结果保存到文件中。此外，PaddleOCR还支持处理多张图片，通过循环遍历图片列表实现批量识别。通过这些步骤，用户可以轻松提取图片中的文字并进行后续处理

2025-05-14 10:39:15 1021 1

原创 windows11 安装PaddleOcr 的正确方式

本文介绍了如何在Windows 11上安装PaddleOCR，并解决安装过程中可能遇到的源问题。首先，通过pip命令安装PaddleOCR时，若使用默认源报错，可切换至国内镜像源（如清华源）进行安装。安装完成后，可通过简单的Python代码验证PaddleOCR是否成功安装。此外，PaddleOCR可能需要额外依赖库如OpenCV，可通过pip安装。文章还提供了一个简单的PaddleOCR示例代码，用于识别图片中的文字，并可视化识别结果。

2025-05-12 17:04:37 1018

原创 Windows 11上安装PaddlePaddle的常见问题。

在Windows 11上安装PaddlePaddle时，可能会遇到环境配置、版本匹配和安装命令错误等问题。首先，确保系统环境满足PaddlePaddle的要求，包括Python版本（3.6到3.9）。使用正确的安装命令，如python -m pip install paddlepaddle==2.4.2 -i https://mirror.baidu.com/pypi/simple，并注意升级pip版本和更换源以解决安装错误。

2025-05-12 11:31:14 840

只有左边一个小酒窝的专栏