追逐☞-CSDN博客

原创 408《数据结构》——第二章：线性表

线性表（Linear List）是具有相同数据类型的n (n ≥ 0)个数据元素的有限序列。。关键特性：元素个数有限。所有元素属于同一数据对象。元素之间存在严格的顺序关系。存在唯一的“第一个”元素（表头元素，无直接前驱）。存在唯一的“最后一个”元素（表尾元素，无直接后继）。除表头和表尾元素外，每个元素aᵢ(1 < i < n) 都有且仅有一个直接前驱aᵢ₋₁和一个直接后继aᵢ₊₁。一对一的线性关系。是线性结构的典型代表。基本操作（ADT定义的核心）：构造一个空的线性表L。

2025-06-01 23:35:17 1060

原创大模型（7）——向量模型（向量化存储）

定义对比学习模型self.head = torch.nn.Linear(768, 256) # 降维embeddings = self.head(outputs.last_hidden_state[:, 0]) # 取[CLS]向量# 训练代码略（需准备正负样本对）

2025-05-27 22:48:22 878

原创大模型（6）——语义分割

（Semantic Segmentation）的结合，正在计算机视觉领域发挥越来越重要的作用。语义分割的核心是为图像或视频中的每个像素分配语义类别标签（如“人”“车”“天空”），而大模型的引入显著提升了分割的精度、泛化能力和应用场景。，使其从纯视觉任务升级为感知-推理-决策闭环中的智能组件。未来随着多模态大模型的演进，语义分割将进一步融入通用人工智能（AGI）系统。大模型（如多模态大语言模型、视觉大模型等）与。大模型为语义分割带来了。

2025-05-27 22:42:48 652

原创大模型（5）——编码器（Encoder）、解码器（Decoder）

编码器是“理解者”，擅长从数据中提取抽象特征；解码器是“生成者”，擅长基于上下文创造新内容；两者协作可处理复杂任务（如翻译、对话），而独立设计则针对特定场景优化（如GPT纯生成、BERT纯理解）。现代大模型（如LLaMA、PaLM）常采用解码器-only架构，因其生成能力更适配通用任务，而编码器-解码器架构在需精确对齐输入输出的场景（如翻译）中仍不可替代。

2025-05-27 22:35:43 1070

原创大模型（4）——Agent（基于大型语言模型的智能代理）

大模型Agent是一种基于大型语言模型（LLM）的智能系统，能够自主感知环境、规划任务、调用工具并完成复杂目标。其核心原理是，实现从“思考”到“行动”的闭环。

2025-05-27 22:30:14 806

原创大模型——多模态检索的RAG系统架构设计

该架构通过预训练对齐或投影层学习实现跨模态向量统一，结合混合检索策略，使RAG系统能同时处理文本和图像查询，生成更丰富的多模态回答。

2025-05-20 23:10:55 702

原创大模型（3）——RAG（Retrieval-Augmented Generation，检索增强生成）

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合信息检索与文本生成的技术，旨在通过引入外部知识库提升生成内容的准确性和相关性。其核心机制是先检索相关信息，再基于检索结果生成答案。相比传统生成模型，RAG具有更准确、知识可更新、透明可信等优势。RAG的核心组成包括检索器和生成器，工作流程分为检索阶段和生成阶段。训练方式可以是联合训练或分阶段训练。RAG的优势在于准确性、可解释性和动态更新，但也存在检索效率、依赖检索质量和上下文长度限制等局限。应用场景包括开放域问答

2025-05-20 23:03:01 764

原创大模型（2）——提示工程（Prompt Engineering）

提示工程是释放大模型潜力的关键技能，核心在于清晰定义任务+结构化引导模型思考。迭代优化：通过测试不同提示版本对比效果。领域适配：医疗、法律等专业领域需结合术语和规范。伦理审查：避免生成有害或偏见内容（如添加过滤条件）。通过持续实践，可显著提升模型输出质量，减少“AI幻觉”风险，使其真正成为高效的生产力工具。

2025-05-19 23:06:30 1091

原创大模型（1）——基本概念

定义大模型（Large Models）是指参数量极大（通常在十亿级（Billion）到万亿级（Trillion））的深度学习模型，通过海量数据和复杂架构训练，具备强大的泛化能力和多任务处理能力。大规模参数：模型参数量远超传统模型（如GPT-3有1750亿参数，PaLM达5400亿）。通用性：通过预训练学习通用知识，可适配多种下游任务（如文本生成、图像识别、代码编写）。自监督学习：依赖无标注数据（如互联网文本、图像）进行训练，无需人工标注。关键概念预训练与微调。

2025-05-19 22:36:04 687

原创机器学习（14）——模型调参

通过以上策略和代码示例，可以在千万级数据集上高效完成模型调参。实际应用中建议结合业务特点调整参数范围，并通过自动化流水线实现持续优化。

2025-05-19 22:16:31 1265

原创机器学习（13）——LGBM（2）

LightGBM是一种高效的梯度提升树算法，由微软开发，旨在解决传统梯度提升树在处理大规模数据时的性能瓶颈。其核心特点包括高效性、低内存使用和高精度。LightGBM通过基于直方图的算法优化，将连续特征离散化为直方图，减少计算量，并支持多线程和GPU加速，显著提升训练速度。此外，它继承了梯度提升树的高精度特性，支持分类、回归任务，并提供特征重要性评估和早停机制等功能。LightGBM广泛应用于电商、金融、医疗和工业等领域，尤其适合处理大规模数据。其优点在于训练速度快、内存占用低，但可能对参数设置较为敏感。

2025-05-18 21:00:23 1128

原创机器学习（12）——LGBM（1）

LightGBM因其高效性和优秀的性能，已成为许多机器学习竞赛和工业界应用的首选工具之一。高维特征通常是稀疏的，许多特征互斥（不会同时取非零值）。EFB将这些特征捆绑在一起，将复杂度从O(#features)降到O(#bundle)，同时不影响准确性。LightGBM（Light Gradient Boosting Machine）是微软开发的一个基于决策树算法的分布式梯度提升框架，专为高效性和可扩展性设计。LightGBM属于梯度提升决策树(GBDT)家族，是XGBoost之后的一个重要改进。

2025-05-18 20:57:06 1197

原创机器学习（11）——xgboost

XGBoost是一种高效的梯度提升决策树（GBDT）实现，广泛应用于机器学习和数据科学领域。它通过组合多个弱学习器（如决策树）来构建强学习器，具有以下核心特点：1）使用二阶导数优化，提升模型精度；2）引入正则化项，防止过拟合；3）支持并行计算，提高训练效率；4）采用后剪枝和稀疏感知算法，增强模型灵活性。XGBoost还通过列块存储、缓存优化和外存计算等技术，进一步优化了大规模数据处理能力。与LightGBM相比，XGBoost在树生长策略、特征处理和内存使用等方面有所不同，适用于不同场景。实践建议包括参数调

2025-05-18 17:06:01 1121

原创机器学习（10）——神经网络

神经网络（Neural Networks，简称NN）是一类模仿生物神经系统的数学模型，用于处理和解决各种类型的任务，如分类、回归、模式识别等。神经网络属于机器学习领域的一个重要分支，特别是在深度学习（Deep Learning）中起到了核心作用。神经网络通过层次化非线性变换实现强大的函数拟合能力，其成功依赖于：架构设计（如CNN处理图像、Transformer处理文本）。优化技术（如Adam、Dropout）。大规模数据与算力支撑（GPU/TPU）。

2025-04-26 16:20:45 1675

原创机器学习（9）——随机森林

它通过构建多个决策树（Decision Tree），并通过集成学习的思想，最终输出多个决策树的结果的平均值或多数投票结果，从而提高模型的准确性和稳定性。随机森林的核心思想是通过构建多个决策树，并结合它们的结果来进行预测。决策树继续生长，直到满足一定条件（例如，树的深度达到预设的最大值，或者节点的样本数小于某个阈值）为止。随机选择特征：在每个决策树的每个节点，选择一个随机的特征子集来进行分裂，而不是使用所有特征。在每个节点的划分时，随机选择一个特征子集，而不是使用所有特征，从而减少不同决策树之间的相关性。

2025-04-25 00:05:29 1262

原创机器学习（8）——主成分分析

主成分分析（PCA，Principal Component Analysis）是一种常用的降维技术，旨在通过线性变换将数据转换到一个新的坐标系中，使得数据的方差最大化，从而提取出数据中的主要特征。它在数据预处理、降维、噪声去除和数据可视化等领域有广泛应用。PCA通过正交变换提取数据主要变化方向，是降维和特征提取的基石。理解其数学本质（特征分解）和局限性（线性假设）有助于在实际任务中合理应用。进阶方法（如核PCA）可解决非线性问题。

2025-04-24 23:09:16 909

原创机器学习（7）——K均值聚类

K均值是聚类任务的基础算法，核心在于迭代优化质心位置。尽管有局限性（如需预设K值），但其高效性和易实现性使其在实践中广泛应用。改进方法（如K-Means++）和评估技巧（肘部法则）可进一步提升效果。

2025-04-24 22:22:30 1355 1

原创机器学习（6）——朴素贝叶斯

朴素贝叶斯算法（Naive Bayes）是一种基于贝叶斯定理的概率分类算法，在机器学习和数据挖掘中广泛应用。它被称为“朴素”的原因是它假设特征之间是条件独立的，这简化了模型的复杂度，使得它在许多实际问题中能够表现得相当高效，尤其适用于文本分类、垃圾邮件识别等任务。朴素贝叶斯是一种简单但强大的概率分类器，尤其适合高维稀疏数据和实时预测场景。尽管其独立性假设在实际中可能不成立，但在许多任务（如文本分类）中仍表现优异。理解其数学基础（贝叶斯定理）和变种（高斯/多项式/伯努利）是灵活应用的关键。

2025-04-16 00:41:44 934

原创机器学习（5）——支持向量机

SVM 核心：最大化间隔的超平面，支持核方法处理非线性。关键参数：正则化参数CCC。核函数类型（RBF/线性/多项式）。RBF 核的γγγ。适用场景：中小规模高维数据（如文本分类、图像识别）。需强泛化能力的分类任务。

2025-04-14 00:03:29 1422

原创机器学习（4）—— K近邻算法

给定一个待分类（或回归）的数据点，找到训练集中距离该数据点最近的K个邻居，然后通过这些邻居的标签（分类问题）或数值（回归问题）来预测该数据点的标签或数值。：待预测样本的类别由其K个最近邻居的**多数投票（Majority Voting）**决定。”，通过计算待预测样本与训练样本的距离，找到最近的K个邻居，基于这些邻居的标签进行预测。计算待分类点与所有训练集点之间的距离，常用的距离度量包括欧几里得距离、曼哈顿距离等。：计算样本间距离的方法（如欧氏距离、曼哈顿距离）。：选择最近的K个邻居（影响模型复杂度）。

2025-04-12 17:58:28 909

原创机器学习（3）——决策树

决策树（Decision Tree）是一种非参数的监督学习算法，适用于分类和回归任务。其核心思想是通过一系列规则（if-then结构）对数据进行递归划分，最终形成一棵树形结构，实现预测或分类。

2025-04-12 17:57:48 1224

原创机器学习（2）——逻辑回归

逻辑回归（Logistic Regression）是一种用于分类问题的统计方法，特别是用于二分类问题。尽管其名字中有“回归”二字，但逻辑回归实际上是一种分类模型。它通过一个线性模型来预测一个事件的发生概率，输出值在0到1之间。

2025-04-12 17:57:07 930

原创机器学习（1）—线性回归

线性回归（Linear Regression）是一种用于预测一个连续型目标变量（因变量）与一个或多个自变量（特征变量）之间关系的统计方法。它的基本思想是通过拟合一条直线（在多变量情况下是超平面），来建立自变量和因变量之间的关系模型。

2025-04-05 09:51:48 1175

原创 PyTorch使用(7)-张量常见运算函数

【代码】PyTorch使用(7)-张量常见运算函数。

2025-04-03 10:57:28 267

原创 PyTorch使用(6)-张量形状操作

reshape：用来改变张量的形状，返回一个新的张量。transpose：交换张量的两个维度。permute：按指定的维度顺序重新排列张量的所有维度。view：用来改变张量的形状，要求张量在内存中是连续的。contiguous：确保张量是连续的，可以在需要 view 操作时使用。squeeze：去除张量中维度为1的维度。unsqueeze：在张量的指定位置添加一个维度。

2025-04-03 10:56:48 323

原创 PyTorch使用(5)-张量索引操作

简单的行、列索引是最基本的索引操作，通过整数来访问张量中的元素。可以使用类似数组索引的方式来操作。

2025-04-03 10:56:17 796

原创 PyTorch使用(4)-张量拼接操作

将多个张量沿指定维度（dim）拼接，生成新张量。所有输入张量的维度数必须相同。非拼接维度的大小必须一致。张量必须位于同一设备且数据类型相同。适用场景：合并同维度的特征、批量数据拼接等。核心规则1、输入张量维度数相同。2、非拼接维度大小严格一致。3、设备与数据类型一致。优先使用 torch.cat：当需要在现有维度扩展时；需新增维度时选择 torch.stack。功能：将多个张量沿新维度堆叠（非拼接），要求所有输入张量形状严格相同。

2025-04-03 10:55:43 998

原创 PyTorch使用(3)-张量类型转换

共享内存：默认情况下，CPU 张量与 NumPy 数组共享内存，修改会同步。独立副本：使用 .copy() 或 clone() + .numpy() 创建独立数据。设备与梯度：处理 GPU 张量或带梯度张量时，需先移至 CPU 并分离梯度。优先使用 .item()：安全且明确，专为标量设计。避免强制类型转换：可能隐藏维度不匹配或设备不一致的问题。处理复杂情况：通过 .squeeze()、.cpu()、.detach() 确保张量符合要求。

2025-03-16 18:01:44 747

原创 PyTorch使用(2)-张量数值计算

数学表示：若矩阵A 和 B形状相同（均为 m×n），则它们的阿达玛积 A⊙B 定义为：即对应位置元素相乘，结果仍为m×n的矩阵。与矩阵乘法的区别：元素级操作，形状严格相同。矩阵乘法（点积）：线性代数操作，要求 A 的列数 = B 的行数，结果形状为(A的行数,B的列数)。优先使用 @ 或 torch.matmul：灵活支持多维张量和广播。明确场景选择函数：简单 2D 乘法 → torch.mm；固定批次 3D 乘法 → torch.bmm形状检查：始终确保最后两维满足矩阵乘法规则。

2025-03-16 16:43:08 1084

原创 PyTorch使用（1）-张量的创建

方法用途根据数据创建张量，自动推断数据类型。根据形状创建未初始化的张量。创建整数类型（torch.int32）的张量。创建浮点类型（torch.float32）的张量。创建双精度浮点类型（torch.float64）的张量。创建指定数据类型的张量（推荐，更直观且灵活）。方法用途创建等间隔的整数张量。创建等间隔的浮点数张量。设置随机种子，确保实验可重复。初始化随机种子。创建标准正态分布的随机张量。创建 [0, 1) 区间内均匀分布的随机张量。创建指定范围内的整数随机张量。方法。

2025-03-13 23:46:05 812 1

原创机器学习模型开发知识沉淀

在使用算法去挖掘数据中的规律时，离不开准确的数据支撑。然而在不同场景挖掘模型中，使用的训练数据也有着很大区别，选择恰当的入模特征，对模型最终效果起着决定性作用。数据选择步骤发现问题数据：识别缺失值、重复值、异常值（Outliers）或噪声数据，判断是否需要清洗或修正。验证数据一致性：检查字段格式（如日期、数值类型）、单位是否统一，避免因数据错误导致模型偏差。识别数据偏差：发现数据分布不平衡（如分类任务中类别不均衡）、采样偏差或时间序列中的断档问题。统计特征分析：计算均值、方差、分位数、偏度（Skewness

2025-02-13 00:23:01 1040

爬虫.zip，一个包含很多爬取方法的压缩包

空空如也