⊙月-CSDN博客

原创研究进步最快的程序员个体——王强

新东方狠人、神人一大堆，俞敏洪、王强、徐小平、周思成都是非常让人敬佩的白手起家者，其中对王强怎么学计算机的之前有所耳闻，认为其是入门最快的程序员，值得好好去研究下他：

2021-08-07 13:41:18 1292

原创【汇总记忆：命令、语法、函数、等】

Linux常用操作查看磁盘空间：df -h 查看服务器显卡使用情况：nvidia-smi 遍历文件夹内所有子文件夹及其内容 import os# 遍历文件夹def walkFile(file): for root, dirs, files in os.walk(file): # root 表示当前正在访问的文件夹路径 # dirs 表示该文件夹下的子目录名list # files 表示该文件..

2021-07-09 11:53:03 281 2

原创 GPT 1-3（速通版）

用的 transformer 解码器结构（48 层 decoder），15 亿参数，模型输入是文本，输出也是文本。预训练模型能够实现 zero-shot，即无需微调直接能在各种领域使用。在众多 zero-shot 领域达到 SOTA，并且这种架构的精度天花板还远未触及，只要继续去提高参数量和数据量。

2025-03-16 11:34:17 570

原创 YOLOv5-实例分割原理（YOLACT算法）

YOLO5实例分割架构相对YOLO5目标检测的区别

2025-01-29 15:32:36 150

原创 VPR：BoQ

BoQ 的创新在于引入了一组可学习的查询向量（Learnable Queries），这些向量被用于通过交叉注意力机制，从输入图像的局部特征中提取相关信息。

2025-01-29 15:30:22 106

原创 VPR概述、资源

是计算机视觉领域的一项关键任务，旨在通过图像匹配和分析来识别场景或位置。它的目标是根据视觉信息判断某个场景是否与数据库中的场景匹配，从而确定位置或场所。：VPR 是一种基于视觉的场景识别技术，涉及特征提取、全局聚合和相似性计算，广泛应用于机器人、自主导航和地标识别领域。它的核心在于如何有效处理外观变化、尺度差异和大规模匹配的挑战。

2025-01-29 15:27:50 888

原创 VPR：MixVPR

核心特点：利用全连接层的能力，以整体的方式自动聚合特征，而不是专注于局部特征。（除去特征提取器部分，MixVPR是一个全MLP架构）

2025-01-29 15:25:36 192

原创优达学城 Generative AI 课程3：Computer Vision and Generative AI

AIGC图像生成相关练习、项目

2024-10-12 18:40:32 1159

原创优达学城 Generative AI 课程2：Large Language Models (LLMs) & Text Generation

涵盖了大型语言模型的类型，帮助你直观理解它们的局限性和能力、推理和解码的超参数设置，以及如何进行有效的提示工程。在这节课中，将教你如何构建一个用于微调大型语言模型并进行检索增强生成的相关且高质量的数据集。在本项目中，你将应用本课程中的所有知识，使用你选择的数据集创建一个自定义的聊天机器人。在调用大模型的API回答用户的问题时，先在本地使用检索增强生成（RAG）技术，即把用户的问题与最近年限的数据集知识进行相似度检测，然后将相似度最高的那个知识作为用户问题的上下文信息，一起传给大模型API。

2024-10-11 15:55:24 700

原创优达学城 Generative AI 课程1：GenAI Fundamentals

项目源文件：https://github.com/ritvij-saxena/udacity-gen-ai-nanodegree/blob/main/LightweightFineTuning_completed.ipynb个人总结：本大项目就是自己选个语言模型、选个数据集、选一种peft微调方法、然后对比一下预训练模型和经过peft微调后的模型在改数据集下的效果差距。源文件中的方法选择：以上3个库，全部隶属于HuggingFace。目的：基于 Hugging Face 的库，使用 LoRA（Low-R

2024-10-10 10:41:56 888

原创 CMU 10423 Generative AI：lec18（大模型的分布式训练）

这个文档主要讲解了（Distributed Training），特别是如何在多GPU上训练大规模的语言模型。

2024-10-03 16:16:46 423

原创 CMU 10423 Generative AI：lec17（优化Attention机制的方法）

本次课主要探讨了如何通过优化Attention机制来减少计算开销和内存使用，从而加速Transformer模型的推理过程。Flash Attention通过分块计算减少了内存使用，而Multi-Query Attention通过共享查询和键值对提升了推理效率。这些技术在大模型的推理中尤其重要，能够显著提升模型的实时性和计算效率。

2024-10-03 16:15:16 710

原创 CMU 10423 Generative AI：lec16（Mixture of Experts 混合专家模型）

这个文档是关于背景与动机上一节课讨论了大规模语言模型（如GPT-3和GPT-4）随着规模的增大，在训练和推理上的一些优劣点。大模型具有更强的容量和更快的收敛速度，但在推理时成本较高。本次课的目标是通过模型来减少推理成本，使模型在推理时只激活少量的权重，从而提高效率。Mixture of Experts 的定义MoE层包含多个专家（M个专家），通过一个称为"top-k routing"的机制进行专家选择。

2024-10-03 16:13:54 1004

原创 CMU 10423 Generative AI：lec15（Scaling Laws 大规模语言模型的扩展法则）

这份讲义主要讲解了，即大规模语言模型的扩展规律，解释了如何根据模型大小和计算资源需求来优化训练过程。

2024-10-03 16:11:38 1669 1

原创 CMU 10423 Generative AI：lec14（Vision Language Model：CLIP、VQ-VAE）

这份讲义主要讲解了的核心概念及其应用，涉及人工智能系统如何处理图像和文本输入并生成输出。人工通用智能 (AGI) 应该能够处理多种形式的输入与输出，包括音频、视频、图像、文本等。VLM 是专注于图像和文本混合输入，输出主要是文本，但也有可能生成图像。标准文本转换器通过将输入的文本转化为一系列的 tokens，然后使用 Transformer 模型处理这些 tokens。VLM 的不同之处在于它不仅能处理文本，还可以处理图像。

2024-10-03 16:09:15 1160

原创 CMU 10423 Generative AI：lec13/13.5（text-to-image models：三大类方法、评估标准、图像编辑原理）

lec13主要讲述了文本到图像生成的各种模型，重点关注潜在扩散模型（Latent Diffusion Models, LDM）。文本到图像生成模型的历史发展：提供了文本到图像生成技术的发展时间线，并介绍了从GAN到自回归模型和扩散模型的演变。GAN模型：讨论了文本到图像生成的GAN模型，包括类别条件GAN的工作原理。自回归模型：介绍了Parti（Pathways Autoregressive Text-to-Image）模型的工作机制，将图像生成视为一个序列到序列的问题。扩散模型。

2024-10-02 17:56:45 1253

原创 CMU 10423 Generative AI：lec12（指令微调Instruction Fine-tuning、人类反馈强化学习RLHF）

这份文件是CMU机器学习课程（10-423/10-623 Generative AI）的第12次讲座，主要内容包括指令微调（Instruction Fine-tuning）和人类反馈强化学习（Reinforcement Learning with Human Feedback，RLHF）两个部分。

2024-10-01 16:50:36 1117

原创 CMU 10423 Generative AI：lec11 参数高效微调PEFT（LoRA, adapters, prefix tuning, BitFit等）

该文件主要介绍了“参数高效微调（Parameter Efficient Fine-Tuning, PEFT）”在深度学习中的应用，尤其是如何在大规模预训练模型（例如大型语言模型和视觉Transformer）上实现高效的微调。PEFT的背景与定义：讨论了在对大型预训练模型进行微调时，传统的全参数微调方法在计算和内存方面非常昂贵，尤其是当模型参数数量非常大时。因此，PEFT旨在以更少的参数实现与全参数微调相当的性能。少样本学习（Few-shot Learning）

2024-09-30 18:18:59 948

原创 CMU 10423 Generative AI：lec10（few-shot、提示工程、上下文学习）

该文件主要内容涵盖了**In-context Learning（ICL）**的概念，讲解了零样本学习（Zero-shot Learning）、少样本学习（Few-shot Learning）、提示工程（Prompt Engineering）等主题。零样本学习与少样本学习（Zero-shot and Few-shot Learning）零样本学习：训练数据中没有任何包含测试数据标签的样本，模型需要从未见过的标签中进行推断。少样本学习。

2024-09-30 18:08:05 1285 1

原创 CMU 10423 Generative AI：lec7、8、9（专题2：一张图理解diffusion model结构、代码实现和效果）

Diffusion Model严格意义上最早源于2015年的《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》，但如下这篇论文才真正将Diffusion Model效果发扬光大，有点类似2013年的alexnet网络和1998年的lenet-5网络感觉。全称：时间：2020年作者人数：3人，加州伯克利大学论文地址：优缺点优点：生成图像的效果非常惊艳，超越VAE、生成式对抗网络等方法，SOTA级别。

2024-09-27 11:40:15 659

原创 CMU 10423 Generative AI：lec7、8、9（专题1：AE、VAE详解）

时间：2013.12论文：Auto-Encoding Variational作者：荷兰阿姆斯特丹大学，2人成就：ICLR 2024首个时间检验奖获奖评语：概率建模是对世界进行推理的最基本方式之一。这篇论文率先将深度学习与可扩展概率推理（通过所谓的重新参数化技巧摊销均值场变分推理）相结合，从而催生了变分自动编码器 (VAE)。这项工作的持久价值源于其优雅性。用于开发 VAE 的原理加深了我们对深度学习和概率建模之间相互作用的理解，并引发了许多后续有趣的概率模型和编码方法的开发。

2024-09-18 15:00:46 1198

原创 CMU 10423 Generative AI：lec7、8、9（Diffusion Models、VAEs）

本讲主要是为后续讲扩散模型（Diffusion Models）做铺垫。介绍了U-Net语义分割网络，以及无监督学习的基本假设、目标和一些经典的生成模型：自回归语言模型（GPT）、生成式对抗网络、扩散模型。最后初步介绍了扩散模型。这份讲义详细阐述了变分自编码器（VAE）的基础概念、结构和实际应用。通过变分推断和重参数化技巧，VAE能够有效地进行无监督学习，并生成高质量的图像或文本。

2024-09-18 14:46:18 1239

原创 CMU 10423 Generative AI：lec6（生成式对抗网络、有向图等模型 + 阅读材料：GAN论文）

本讲主要介绍生成式对抗网络（1-24页），还介绍了有向图模型、马尔可夫模型、无向图模型等内容（36-65页）。阅读材料是Ian Goodfellow的GAN论文以及作者自己写的教程性论文GAN Tutorial（57页）。快速了解GAN原理可以看我之前写的生成式对抗网络博客（内容源自优达学城中的代码）：https://blog.csdn.net/weixin_42118657/article/details/120284204。

2024-09-14 17:57:52 893

原创 CMU 10423 Generative AI：lec5（Encoder-only Transformers + 阅读材料Bert, ViT）

介绍了CV一些常见任务领域介绍了transformer中encoder层和decoder层中attention的区别，举了仅用encoder层架构的模型bert、VIT模型例子介绍图像生成领域本讲有2篇阅读材料：一个是bert论文（2018年10月），一个ViT论文（2021年）。全称：时间：2018年10月作者人数：4人，谷歌论文地址：简短总结。

2024-09-14 14:40:23 1474

原创 CMU 10423 Generative AI：HW1（编程部分：在GPT-2模型中实现RoPE、GQA）

1在“Programming: RoPE and GQA”部分，主要任务是通过结合RoPE（旋转位置嵌入）和GQA（Grouped Query Attention，分组查询注意力）这两种机制，改进现有的GPT模型，并观察这些改进对模型性能的影响。以下是对RoPE和GQA的介绍：RoPE是一种相对位置嵌入方法，用来取代传统的绝对位置嵌入。在传统Transformer中，位置信息通过将位置嵌入直接加到输入的词向量中进行传播。而RoPE直接在每一层注意力计算中引入相对位置信息，旋转每个查询和键向量的一部分来嵌入这

2024-09-13 17:35:10 1475

原创 CMU 10423 Generative AI：HW1（理论部分）

备注：S24版GitHub上有某CMU学生分享了自己的全套理论+编程作业，以下内容的整理结合了我自己的理解查阅、GPT4的解答、以及CMU学生的答案。这次作业主要围绕生成式文本模型，具体包括以下几个部分：构建递归神经网络（RNN）用于语言建模，解答与RNN递归方程相关的数值问题，讨论双向RNN能否用于自回归语言模型。Transformer语言模型 (15分)：滑动窗口注意力 (8分)：编程题：RoPE与GQA (24分)：题目大意如下：1.1 (3 分) 数值问题：考虑一个 RNN (Elman 网络)，其

2024-09-11 19:00:23 840

opencv_python-4.4.0-cp37-cp37m-win_amd64.whl

WPF开发的类似Visio软件.zip

全球工业互联网发展动态监测 （2018年3月）

2018年度工业互联网优秀应用案例汇编

yolo.h5训练的源文件

空空如也

全球工业互联网发展动态监测（2018年3月）