胶布️-CSDN博客

原创机器学习（三）

**Tanh**：将输入压缩到(-1, 1)之间，公式为`tanh(x) = (e^x - e^(-x)) / (e^x + e^(-x))`。- **更新公式**：`w = w - η * ∇L(w)`，其中`w`是权重，`η`是学习率，`∇L(w)`是损失函数关于`w`的梯度。- **Sigmoid**：将输入压缩到(0, 1)之间，公式为`σ(x) = 1 / (1 + e^(-x))`。- **反向传播**：从输出节点开始，逐步计算每个节点的梯度，直到计算所有节点的梯度。

2024-06-17 00:13:31 370

原创动手搭建一个大模型评测系统

**生成质量**：如流畅性、逻辑一致性、创意性等。- **健壮性**：应对噪声输入或非标准输入的能力。- **数据加载模块**：用于加载和预处理测试数据。通过以上步骤，你可以搭建一个基本的大模型评测系统。- **模型接口模块**：统一不同模型的调用接口。- **生成任务**：如文章续写、对话生成。- **分类任务**：情感分析、主题分类等。- **结果展示模块**：可视化评测结果。- **评测模块**：计算各项评测指标。- **准确性**：回答问题的正确性。- **效率**：推理速度、资源消耗。

2024-05-28 23:17:05 386

原创打卡笔记（自存）

具体而言，赛题的挑战是如何利用成熟国家A的稠密用户数据和待成熟国家B的稀疏用户数据，来训练一个对国家B用户有效的推荐模型。- 冠军团队的方案通过数据预处理、特征工程、模型选择与训练、模型融合等多个环节的创新与优化，成功实现了对国家B用户行为的高效预测。- 本次赛题的核心是如何高效利用数据稠密的国家A和数据稀疏的国家B的用户行为数据。- 利用成熟国家A的用户数据进行模型预训练，然后对待成熟国家B的数据进行微调。- **训练数据**：包含国家A用户的购买数据和国家B部分用户的购买数据。

2024-05-28 22:06:05 141

原创在大模型中添加工具的具体实现

4. **数据处理和准备：** 根据所选工具的要求，对数据进行处理和准备。这可能包括数据清洗、标注、特征提取等。5. **模型训练：** 使用所选的框架或工具训练模型。6. **评估和优化：** 对训练好的模型进行评估，并根据评估结果进行优化和改进。8. **持续监控和维护：** 对系统进行持续监控，并根据用户反馈和性能指标进行调整和优化。1. **需求分析：** 首先，确定您的大型模型需要哪些工具来支持其开发和运行。7. **部署和集成：** 将训练好的模型集成到系统中，并确保其能够与其他组件无缝交互。

2024-05-24 23:24:31 248

原创机器学习（二）

这节课主要讲解了感知器（Perceptron）和多层感知器（Multi-layer Perceptron, MLP）在机器学习中的应用。- 激活函数（Activation function）：通常使用符号函数（sign function），将加权和结果转换为输出。- 对每个训练样本 \( x \)，计算输出 \( y = \text{sign}(w \cdot x) \)。- 如果真实标签为 -1： \( w \leftarrow w - x \)

2024-05-23 14:16:12 231

原创机器学习（一）

**机器学习的定义**：机器学习是通过提供示例而不是编写明确的代码来指定程序的过程。- **监督学习**：这是机器学习的一种类型，其中模型在带有标签的数据上进行训练。- **感知器和多层感知器（MLP）**：感知器是最简单的神经网络模型，而MLP则是包含多个隐藏层的神经网络。- **支持向量机（SVM）**：一种强大的分类算法，通过最大化类别间的间隔来找到最佳分类边界。- **多类分类和支持向量机（SVMs）**：用于解决多分类问题，SVM是一个强大的分类器。- **数据**：包括训练数据和测试数据。

2024-05-23 14:12:52 217

原创图像处理（十）

**Viola Jones**：快速，适合查找对象类别（如人脸检测），处理复杂形状，但需要大量训练图像，精度有限。- 使用运动分割查找所有移动对象，标记每个二进制对象，移除太小或形状错误的对象，然后匹配每个对象与前一帧中的对象。- **SIFT**：缩放、旋转、仿射不变量，但对噪声和光照变化不如相关性强，分类结果不如深度学习。- 示例：第1帧中的对象A、B、C和第2帧中的1、2、3之间的距离，匈牙利算法将找到最佳解决方案。- **深度学习**：最佳结果，但需要大量训练集和处理能力。

2024-05-21 15:49:20 335

原创图像处理（九）

1. **指定参考图像**：将一个图像指定为参考图像，应用空间变换矩阵将其他图像与参考图像对齐。- 选择两个图像中的控制点，根据控制点计算变换矩阵，执行空间变换，将新图像变换到基础图像坐标上。- 知道地面上四个物体的真实位置及其在图像中的位置，可以制作从图像坐标到现实世界的投影矩阵。4. **给每个对象一个标签**：检查每个对象的属性，移除小物体、大物体和形状错误的物体。3. **校正光照变化**：使用形态学算子（侵蚀）估计背景，去除图像中的明亮物体。2. **分割图像**：将图像分割为前景和背景。

2024-05-21 15:46:02 270

原创图像处理（八）

朴素的Inception模块对输入进行卷积，使用三种不同尺寸的滤波器（1x1, 3x3, 5x5），并进行最大池化，然后将输出连接并传递给下一个Inception模块。通过定位图像中的关键点，并对其进行度量来实现。使用预训练的网络（如VGG），移除最终的全连接层（分类器），冻结其他权重并添加新的全连接层，在新数据集上重新训练。- SIFT不需要大型训练集，运行速度更快，通常比相关性方法效果更好，是许多先进方法的基础。- Dropout层：在训练期间随机忽略一些层的输出，使网络更像不同的层，减少过拟合。

2024-05-21 15:41:24 263

原创图像处理（七）

生成树的自动算法：检查所有数据并测试所有可能的二进制分割，选择最佳优化参数的分割，强加分割以产生新节点。- 池化层（Pooling Layer）：用于减少图像大小，MaxPooling取一层的最大输出值，平均池化取平均值，全球平均池化取所有激活的平均值。SVM找到数据点之间最大间隔的边界（超平面）。最简单的方法是减少错误修剪，从叶子开始，将父节点替换为最常见的类，测试树错误是否超出某个阈值。- 训练CNN：通过大量覆盖所有可能视角的训练集进行训练，使用数据增强（旋转、倾斜训练数据等）并在GPU上训练。

2024-05-21 15:23:21 540

原创图像处理（六）

*形状识别**：通过比较形状描述符来区分不同的形状。**模板匹配**：通过计算图像与模板之间的相关性来找到图像中的特定对象。**改进的相关性方法**：使用多个滤波器来应对尺度和旋转的问题，并通过在频域中执行相关性计算来减少计算量。**场景分割和边界生成**：使用边缘检测算法检测图像中的边缘，并将这些边缘连接起来形成对象的边界。**时刻**：是图像形状的一种数学描述，用于计算图像的形状特征，比如中心、面积等。- **长宽比**：对象的长度和宽度的比值，这个比值与对象的实际大小和旋转无关。

2024-05-21 15:15:50 410

原创 TinyRAG

3. **文本生成**：生成器结合查询和检索到的文档生成回答，使用精简模型和高效解码技术提高生成效率。- **资源受限环境**：在计算资源有限的环境中，如远程医疗设备或嵌入式系统中进行高效的信息处理。- **精简架构**：选择轻量化的生成模型，如DistilGPT或小型版本的T5，来生成回答。- **知识蒸馏**：通过知识蒸馏技术，将大型模型的知识迁移到小型模型中，提高小型模型的性能。- **资源效率**：大大减少了模型的计算和存储需求，适合在低资源环境中部署。

2024-05-20 23:57:47 344

原创 Transformer Block 组成部分

**Self-Attention**：这个机制允许模型关注输入序列中的不同部分，从而为每个位置的词生成一个表示，考虑到输入序列中所有其他位置的词。- **Multi-Head**：通过使用多个注意力头，模型可以捕捉到不同的子空间中的信息，有助于提高表示能力。- **注意力头的数量 (num_attention_heads)**：决定多头自注意力机制中的头的数量。- **前馈网络的中间层大小 (intermediate_size)**：前馈神经网络中间层的大小。- 对输入应用多个自注意力头。

2024-05-16 20:45:19 506

原创图像处理（五）

**阶跃边缘**：亮度从一个较高值突变到一个较低值，或相反，变化迅速。边缘是图像中亮度快速变化的地方，通常是对象与背景或不同对象之间的界限。- **线边缘**：由边缘检测算子识别，类似于阶跃函数的微分结果。- **屋顶边缘**：是线边缘的低通版本，形状类似屋顶。- **斜坡边缘**：亮度逐渐从高到低或从低到高变化。### 边缘的本质和类型。

2024-05-07 23:29:26 152 1

原创图像处理（四）

**市场分析**和**用户行为研究**：这些案例通过数据分析揭示消费者行为背后的模式和趋势，帮助企业制定更精准的营销策略。- **标准差**：反映数据集中数值分散程度的统计量，计算方法是求出各数据点与平均值差的平方和的平均值的平方根。- **法律框架**：如GDPR规定了处理个人数据的法律要求，包括获取明确同意、数据最小化和数据主体的权利等。- **神经网络**：由多层的神经元组成，可以捕捉和建模复杂的非线性关系，常用于图像和语音识别任务。- **数据伦理**：涉及确保数据的正确使用，保护个人隐私。

2024-05-07 23:14:15 214 1

原创图像处理（三）

**Pandas**：用于数据清洗和分析，提供DataFrame对象管理表格数据。- **K-means聚类**：将数据点分为K个集群，每个点属于最近的均值集群。- **GDPR合规性**：数据保护法规，要求数据处理的透明度和用户同意。- **NumPy**：处理大型多维数组和矩阵，支持广泛的数学函数库。- **MapReduce**：一个编程模型，用于大规模数据处理。- **非对称加密**：使用一对公钥和私钥进行加密和解密。- **对称加密**：加密和解密使用相同密钥。

2024-05-07 16:07:09 366 1

原创图像处理（二）

**主动像素传感器（APS）**：在CMOS技术中，每个像素都集成了放大电路，以提高信噪比，这使得CMOS传感器在低光环境下的表现更佳。- **优势与劣势**：CMOS相对于CCD有更低的功耗和成本，但通常噪声更大，动态范围和光填充因素也有所不同。- **双三次插值**：一种更为复杂的插值方法，可以提供更高质量的图像重建，但计算成本更高。- **直方图均衡化**：通过调整图像的直方图来提高图像的对比度，使图像的动态范围更加均匀。- **几何畸变校正**：使用变换矩阵来校正相机捕获的图像中的几何扭曲。

2024-04-24 13:40:09 252 2

原创图像处理（一）

**对象识别和分类**：利用模式识别和机器学习技术识别图像中的对象。- **Matlab实验**：学生将通过Matlab实验来实践学到的图像处理技术，包括使用图像处理工具箱进行操作和分析。- **透镜的类型和功能**：讨论了凸透镜和凹透镜如何聚焦光线，以及它们如何用于改变图像的大小和清晰度。- **光学畸变**：介绍了光学系统中常见的问题，如球面畸变、色差和像散，这些都会影响图像质量。- **场景分割**：将图像分割成多个部分或对象，常用的技术包括阈值分割、边缘检测和区域生长。

2024-04-24 13:32:22 344 3

原创自然语言处理（十一）

**排名检索**：使用例如tf-idf（词频-逆文档频率）的方法对检索到的文档进行排名，以评估它们与查询的相关性。- **通道排名**：根据片段中关键词的密度和分布，以及答案类型与片段内容的匹配程度，对片段进行重排。- **关键词提取**：从问题中提取重要的关键词和短语，这些将用于后续的文档检索。- **问题类型分类**：确定问题是事实型的、定义型的还是列表型的等。- **答案类型验证**：确认提取的答案是否符合预期的答案类型。- **候选答案提取**：从排序较高的片段中识别可能的答案。

2024-04-24 13:13:43 375

原创自然语言处理（十）

文本分块是自然语言处理中的一项基础任务，它的目标是将句子中的词或短语分组为“块”。命名实体识别是指识别文本中的具体实体，如人名、地点、组织等，并将其归类为预定义的类别。例如，句子“The company hired John Smith as the new CEO”中描述的是一次雇佣事件，涉及的实体是“the company”和“John Smith”，后者的角色是“CEO”。这有助于确定文本中提到的实体是指哪一个具体的实体，尤其是在面对歧义时（如“Jordan”可能指的是一个国家，也可能是一个人名）。

2024-04-24 13:03:20 237

原创自然语言处理（九）

发射概率（Emission Probability）：给定隐藏状态，生成观测状态的概率。- 隐藏状态（Hidden State）：描述系统内部的未知状态，不能直接观察到。- Viterbi算法用于寻找给定观测序列下最有可能的隐藏状态序列，即最优路径。- 观测状态（Observation）：根据隐藏状态生成的可观测的输出。- 词性标注器的性能评估方法，包括与人工标注的比较和准确率的计算。- 在词性标注中，隐藏状态表示词性，观测状态表示单词。- 包含两个序列：隐藏的状态序列和可观察的观测序列。

2024-04-24 00:03:18 447

原创自然语言处理（八）

**基本理念**：Firth（1957年）提出的“一个词的含义是由它所处的环境决定的”。- **词汇语义学**：之前的课程讨论了同义词、反义词、上义词、下义词等词汇语义关系以及词义消歧的知识和基于语料库的方法。- **评估**：困难所在包括内在评估（如人类的同义词判断）和外在评估（如在应用中的性能提升）。- **语义特征**：通过依赖关系和单词的接近程度捕捉语义特征，例如：“eat”的主语和宾语。- **平滑**、**降维**以及**固定维度的语言模型（如递归神经网络语言模型）**。

2024-04-08 22:14:45 447

原创自然语言处理（七）

5. **语义空间中的向量**：词义被定义为在基于分布的空间中的一个点，即每个词被表示为一个向量，相似的词在语义空间中彼此靠近。1. **语言分布定义含义**：通过单词在语言使用中的分布来定义其含义，即通过它们的语境（周围的词）。1. **稀疏与密集向量**：与基于tf-idf的稀疏向量相比，Word2Vec生成短且密集的向量。- **Skip-Gram模型**：通过预测目标词周围的上下文词来训练词向量。2. **信息检索**：向量的基础，类似文档的向量相似。

2024-04-08 22:03:36 932

原创自然语言处理（六）

这份课件主要介绍了逻辑回归（Logistic Regression），一个在自然和社会科学中广泛使用的重要分析工具。- 特征的权重决定了它在分类决策中的重要性，权重可以是正的（证据支持该类别）或负的（证据反对该类别）。- 测试时，给定一个测试样本x，使用学习到的权重w和偏置b计算p(y|x)，然后返回概率较高的标签。这份课件涵盖了逻辑回归的基本概念、其在分类任务中的应用，以及如何通过梯度下降和正则化技术优化模型。- 生成式分类器构建每个类别的模型，然后比较新样本与这些模型的匹配度。

2024-04-08 21:53:56 342

原创智能系统技术（九）

可能性/信念：概率论。

2024-04-08 21:19:36 121

原创智能系统技术（八）

一阶逻辑：谓词、连接词和真理。语义网络：相关概念和关系。

2024-04-08 21:10:44 201

原创自然语言处理（五）

1. **词义消歧（Word Sense Disambiguation, WSD）**：确定多义词在特定上下文中的确切含义。2. **一词一义假设（One Sense Per Collocation）**：在给定搭配中，一个多义词通常只有一个意义。3. **一词一篇假设（One Sense Per Discourse）**：在一篇连贯的文章中，一个词倾向于保持同一意义。- 多数词有一个高度主导的意义。4. **主导意义（Predominant Sense）**：多数词有一个高度主导的意义。

2024-04-08 20:38:42 265

原创自然语言处理（四）

解释了同义词（synonymy）、反义词（antonymy）和下位词/上位词（hyponymy/hypernymy）之间的关系。- 描述了一种类别包含关系，如“dog”（狗）是“animal”（动物）的下位词，而“animal”是“dog”的上位词。- 是指拼写相同但发音不同、意义不同的词，例如，“desert”（沙漠）和“desert”（放弃）。- 是指同一形式的词表达了完全不同的概念，例如，“plant”既可以指植物，也可以指工厂。- 基于概念在某个语料库中的出现频率，反映了一个概念的信息量。

2024-04-08 20:31:01 369

原创自然语言处理（三）

之前的讲座内容涵盖了二元分类（如情感和相关性）、词汇列表分类器、监督学习、训练和测试以及机器学习方法，特别是自动派生词汇列表和朴素贝叶斯方法。- 描述了分类器预测的正类和负类与真实类别之间的关系，包括真正例（TP）、假正例（FP）、真负例（TN）和假负例（FN）。这节课程集中在文档分类、评估分类器的性能，以及文档相似性的概念。这节课程通过介绍和解释关键的概念和技术，为理解文档分类和文档相似性提供了一个坚实的基础。- 文档相似性：向量空间模型、TF-IDF、余弦相似性和超越单词维度的概念。

2024-04-08 20:14:52 401

原创自然语言处理（二）

4. **联合概率的链式规则**：对于一个词序列 w1, w2, w3, ..., wn，联合概率可表示为 P(w1w2w3...wn) = P(w1)P(w2|w1)P(w3|w1w2)...P(wn|w1w2...wn-1)。6. **N-gram 概率估计**：例如，在 Bigram 模型中，二元概率可以通过最大似然估计 (MLE) 得到，即 P(w2|w1) = Count(w1w2) / Count(w1)。5. **马尔可夫假设**：介绍了用于简化概率计算的马尔可夫假设，特别是在语言模型中。

2024-04-08 19:57:12 355

原创自然语言处理（一）

5. **字节对编码（Byte Pair Encoding, BPE）**：这是一种文本标记化方法，用于处理空格分割和单字符分割以外的情况。4. **标记化（Tokenization）**：这是将连续文本分割成“词”（token）的任务。8. **归一化**：包括大小写归一化、数字归一化和其他罕见词的处理，以及标点和停用词的移除。7. **正则表达式**：这是一种在文本中搜索特定模式的工具。1. **文档检索场景**：探讨了如何在大量文档集（语料库）中自动查找包含特定词（如"cat"）的所有文档。

2024-04-08 19:43:46 115

空空如也

空空如也