- 博客(111)
- 资源 (5)
- 收藏
- 关注
原创 研究进步最快的程序员个体——王强
新东方狠人、神人一大堆,俞敏洪、王强、徐小平、周思成都是非常让人敬佩的白手起家者,其中对王强怎么学计算机的之前有所耳闻,我私认为其是入门最快的程序员,值得好好去研究下他:1962年,出生。 1980年-1984年,获得北京大学西方语系本科学位,俞敏洪的大学时候的班长。 1984年-1990年,毕业后留校任教于北京大学英语系。 1992年-1995年,获得美国纽约州立大学计算机硕士学位。此时30岁,放弃北大6年英语教职,来到美国,从零开始,3年时间,学完计算机几乎所有本科、硕士课程(PS: 一个30
2021-08-07 13:41:18 1079
原创 【汇总记忆:命令、语法、函数、等】
Linux常用操作查看磁盘空间:df -h 查看服务器显卡使用情况:nvidia-smi 遍历文件夹内所有子文件夹及其内容 import os# 遍历文件夹def walkFile(file): for root, dirs, files in os.walk(file): # root 表示当前正在访问的文件夹路径 # dirs 表示该文件夹下的子目录名list # files 表示该文件..
2021-07-09 11:53:03 272 2
原创 优达学城 Generative AI 课程3:Computer Vision and Generative AI
AIGC图像生成相关练习、项目
2024-10-12 18:40:32 1040
原创 优达学城 Generative AI 课程2:Large Language Models (LLMs) & Text Generation
涵盖了大型语言模型的类型,帮助你直观理解它们的局限性和能力、推理和解码的超参数设置,以及如何进行有效的提示工程。在这节课中,将教你如何构建一个用于微调大型语言模型并进行检索增强生成的相关且高质量的数据集。在本项目中,你将应用本课程中的所有知识,使用你选择的数据集创建一个自定义的聊天机器人。在调用大模型的API回答用户的问题时,先在本地使用检索增强生成(RAG)技术,即把用户的问题与最近年限的数据集知识进行相似度检测,然后将相似度最高的那个知识作为用户问题的上下文信息,一起传给大模型API。
2024-10-11 15:55:24 600
原创 优达学城 Generative AI 课程1:GenAI Fundamentals
项目源文件:https://github.com/ritvij-saxena/udacity-gen-ai-nanodegree/blob/main/LightweightFineTuning_completed.ipynb个人总结:本大项目就是自己选个语言模型、选个数据集、选一种peft微调方法、然后对比一下预训练模型和经过peft微调后的模型在改数据集下的效果差距。源文件中的方法选择:以上3个库,全部隶属于HuggingFace。目的:基于 Hugging Face 的 库,使用 LoRA(Low-R
2024-10-10 10:41:56 791
原创 CMU 10423 Generative AI:lec18(大模型的分布式训练)
这个文档主要讲解了(Distributed Training),特别是如何在多GPU上训练大规模的语言模型。
2024-10-03 16:16:46 364
原创 CMU 10423 Generative AI:lec17(优化Attention机制的方法)
本次课主要探讨了如何通过优化Attention机制来减少计算开销和内存使用,从而加速Transformer模型的推理过程。Flash Attention通过分块计算减少了内存使用,而Multi-Query Attention通过共享查询和键值对提升了推理效率。这些技术在大模型的推理中尤其重要,能够显著提升模型的实时性和计算效率。
2024-10-03 16:15:16 657
原创 CMU 10423 Generative AI:lec16(Mixture of Experts 混合专家模型)
这个文档是关于背景与动机上一节课讨论了大规模语言模型(如GPT-3和GPT-4)随着规模的增大,在训练和推理上的一些优劣点。大模型具有更强的容量和更快的收敛速度,但在推理时成本较高。本次课的目标是通过模型来减少推理成本,使模型在推理时只激活少量的权重,从而提高效率。Mixture of Experts 的定义MoE层包含多个专家(M个专家),通过一个称为"top-k routing"的机制进行专家选择。
2024-10-03 16:13:54 914
原创 CMU 10423 Generative AI:lec15(Scaling Laws 大规模语言模型的扩展法则)
这份讲义主要讲解了,即大规模语言模型的扩展规律,解释了如何根据模型大小和计算资源需求来优化训练过程。
2024-10-03 16:11:38 1568
原创 CMU 10423 Generative AI:lec14(Vision Language Model:CLIP、VQ-VAE)
这份讲义主要讲解了的核心概念及其应用,涉及人工智能系统如何处理图像和文本输入并生成输出。人工通用智能 (AGI) 应该能够处理多种形式的输入与输出,包括音频、视频、图像、文本等。VLM 是专注于图像和文本混合输入,输出主要是文本,但也有可能生成图像。标准文本转换器通过将输入的文本转化为一系列的 tokens,然后使用 Transformer 模型处理这些 tokens。VLM 的不同之处在于它不仅能处理文本,还可以处理图像。
2024-10-03 16:09:15 1087
原创 CMU 10423 Generative AI:lec13/13.5(text-to-image models:三大类方法、评估标准、图像编辑原理)
lec13主要讲述了文本到图像生成的各种模型,重点关注潜在扩散模型(Latent Diffusion Models, LDM)。文本到图像生成模型的历史发展:提供了文本到图像生成技术的发展时间线,并介绍了从GAN到自回归模型和扩散模型的演变。GAN模型:讨论了文本到图像生成的GAN模型,包括类别条件GAN的工作原理。自回归模型:介绍了Parti(Pathways Autoregressive Text-to-Image)模型的工作机制,将图像生成视为一个序列到序列的问题。扩散模型。
2024-10-02 17:56:45 1077
原创 CMU 10423 Generative AI:lec12(指令微调Instruction Fine-tuning、人类反馈强化学习RLHF)
这份文件是CMU机器学习课程(10-423/10-623 Generative AI)的第12次讲座,主要内容包括指令微调(Instruction Fine-tuning)和人类反馈强化学习(Reinforcement Learning with Human Feedback,RLHF)两个部分。
2024-10-01 16:50:36 946
原创 CMU 10423 Generative AI:lec11 参数高效微调PEFT(LoRA, adapters, prefix tuning, BitFit等)
该文件主要介绍了“参数高效微调(Parameter Efficient Fine-Tuning, PEFT)”在深度学习中的应用,尤其是如何在大规模预训练模型(例如大型语言模型和视觉Transformer)上实现高效的微调。PEFT的背景与定义:讨论了在对大型预训练模型进行微调时,传统的全参数微调方法在计算和内存方面非常昂贵,尤其是当模型参数数量非常大时。因此,PEFT旨在以更少的参数实现与全参数微调相当的性能。少样本学习(Few-shot Learning)
2024-09-30 18:18:59 845
原创 CMU 10423 Generative AI:lec10(few-shot、提示工程、上下文学习)
该文件主要内容涵盖了**In-context Learning(ICL)**的概念,讲解了零样本学习(Zero-shot Learning)、少样本学习(Few-shot Learning)、提示工程(Prompt Engineering)等主题。零样本学习与少样本学习(Zero-shot and Few-shot Learning)零样本学习:训练数据中没有任何包含测试数据标签的样本,模型需要从未见过的标签中进行推断。少样本学习。
2024-09-30 18:08:05 1126
原创 CMU 10423 Generative AI:lec7、8、9(专题2:一张图理解diffusion model结构、代码实现和效果)
Diffusion Model严格意义上最早源于2015年的《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》,但如下这篇论文才真正将Diffusion Model效果发扬光大,有点类似2013年的alexnet网络和1998年的lenet-5网络感觉。全称:时间:2020年作者人数:3人,加州伯克利大学论文地址:优缺点优点:生成图像的效果非常惊艳,超越VAE、生成式对抗网络等方法,SOTA级别。
2024-09-27 11:40:15 518
原创 CMU 10423 Generative AI:lec7、8、9(专题1:AE、VAE详解)
时间:2013.12论文:Auto-Encoding Variational作者:荷兰阿姆斯特丹大学,2人成就:ICLR 2024首个时间检验奖获奖评语:概率建模是对世界进行推理的最基本方式之一。这篇论文率先将深度学习与可扩展概率推理(通过所谓的重新参数化技巧摊销均值场变分推理)相结合,从而催生了变分自动编码器 (VAE)。这项工作的持久价值源于其优雅性。用于开发 VAE 的原理加深了我们对深度学习和概率建模之间相互作用的理解,并引发了许多后续有趣的概率模型和编码方法的开发。
2024-09-18 15:00:46 1101
原创 CMU 10423 Generative AI:lec7、8、9(Diffusion Models、VAEs)
本讲主要是为后续讲扩散模型(Diffusion Models)做铺垫。介绍了U-Net语义分割网络,以及无监督学习的基本假设、目标和一些经典的生成模型:自回归语言模型(GPT)、生成式对抗网络、扩散模型。最后初步介绍了扩散模型。这份讲义详细阐述了变分自编码器(VAE)的基础概念、结构和实际应用。通过变分推断和重参数化技巧,VAE能够有效地进行无监督学习,并生成高质量的图像或文本。
2024-09-18 14:46:18 1130
原创 CMU 10423 Generative AI:lec6(生成式对抗网络、有向图等模型 + 阅读材料:GAN论文)
本讲主要介绍生成式对抗网络(1-24页),还介绍了有向图模型、马尔可夫模型、无向图模型等内容(36-65页)。阅读材料是Ian Goodfellow的GAN论文以及作者自己写的教程性论文GAN Tutorial(57页)。快速了解GAN原理可以看我之前写的生成式对抗网络博客(内容源自优达学城中的代码):https://blog.csdn.net/weixin_42118657/article/details/120284204。
2024-09-14 17:57:52 821
原创 CMU 10423 Generative AI:lec5(Encoder-only Transformers + 阅读材料Bert, ViT)
介绍了CV一些常见任务领域介绍了transformer中encoder层和decoder层中attention的区别,举了仅用encoder层架构的模型bert、VIT模型例子介绍图像生成领域本讲有2篇阅读材料:一个是bert论文(2018年10月),一个ViT论文(2021年)。全称:时间:2018年10月作者人数:4人,谷歌论文地址:简短总结。
2024-09-14 14:40:23 1361
原创 CMU 10423 Generative AI:HW1(编程部分:在GPT-2模型中实现RoPE、GQA)
1在“Programming: RoPE and GQA”部分,主要任务是通过结合RoPE(旋转位置嵌入)和GQA(Grouped Query Attention,分组查询注意力)这两种机制,改进现有的GPT模型,并观察这些改进对模型性能的影响。以下是对RoPE和GQA的介绍:RoPE是一种相对位置嵌入方法,用来取代传统的绝对位置嵌入。在传统Transformer中,位置信息通过将位置嵌入直接加到输入的词向量中进行传播。而RoPE直接在每一层注意力计算中引入相对位置信息,旋转每个查询和键向量的一部分来嵌入这
2024-09-13 17:35:10 1359
原创 CMU 10423 Generative AI:HW1(理论部分)
备注:S24版GitHub上有某CMU学生分享了自己的全套理论+编程作业,以下内容的整理结合了我自己的理解查阅、GPT4的解答、以及CMU学生的答案。这次作业主要围绕生成式文本模型,具体包括以下几个部分:构建递归神经网络(RNN)用于语言建模,解答与RNN递归方程相关的数值问题,讨论双向RNN能否用于自回归语言模型。Transformer语言模型 (15分):滑动窗口注意力 (8分):编程题:RoPE与GQA (24分):题目大意如下:1.1 (3 分) 数值问题:考虑一个 RNN (Elman 网络),其
2024-09-11 19:00:23 728
原创 CMU 10423 Generative AI:lec4(必读:Sliding Window Attention,RoPE, GQA)
比较详细的研究了RoPE, GQA等现代大模型中的技术
2024-09-10 19:22:33 1147
原创 CMU 10423 Generative AI:lec4(Modern Transformers + CNNs)
该文件涵盖了现代 Transformer 和卷积神经网络 (CNN) 的基础和应用。现代 Transformer 架构:详细介绍了 RoPE(旋转位置嵌入)、GQA(分组查询注意力)和 Longformer 模型中的滑动窗口注意力机制。这些技术改善了 Transformer 模型在处理长序列时的效率和效果。语言建模:讨论了 RNN-LM 和 Transformer-LM 在语言建模中的应用,重点在于如何通过条件前序词生成下一个词。深度学习的发展历程。
2024-09-10 11:09:56 982
原创 CMU 10423 Generative AI:lec3(阅读材料:GPT-2 论文解读)
名称:GPT-2论文全称《Language Models are Unsupervised Multitask Learners》【语言模型是无监督的多任务学习者】时间:2019年2月作者:OpenAI 6人(负责人是ilya)代码:https://github.com/openai/gpt-2(没有提供训练代码,也没有大号预训练模型。。。一段话总结GPT-2:用的transformer解码器结构(48层decoder),15亿参数,模型输入是文本,输出也是文本。
2024-09-09 16:36:04 658
原创 CMU 10423 Generative AI:lec3(阅读材料:GPT1论文解读)
背景:在自然语言处理领域,带标注的数据较为稀缺,而无标注的数据则非常庞大。目的:作者希望利用大量无标注的文本数据,通过无监督训练生成一个预训练模型,随后该模型可以通过少量的标注数据进行微调,从而在多种自然语言处理任务(如文本分类、问答、推理、相似度检测等)中表现出色。方法先使用大规模未标注的文本语料库,对Transformer模型的【解码器部分】进行无监督训练,使其学会捕捉上下文和语言结构的深层语义信息。
2024-09-06 17:20:04 1599
原创 CMU 10423 Generative AI:lec3(Learning Large Language Models)
文件的主要内容是关于大型语言模型(LLMs)的学习过程,涵盖了预训练、微调和解码的各个方面。大型语言模型的学习框架:该讲义从深度学习和语言建模的基本概念出发,介绍了语言模型的训练步骤,包括如何计算梯度以及如何通过优化目标函数进行训练。递归神经网络(RNN)和Transformer模型:讲解了RNN语言模型和Transformer语言模型的工作原理,包括前向传播和反向传播算法,以及如何利用这些模型进行文本的生成和预测。损失函数和SGD训练。
2024-09-06 14:57:48 1333
原创 CMU 10423 Generative AI:lec2
该文件主要介绍了Transformer语言模型的背景、架构以及与其他语言模型的对比。语言模型的历史:文件首先介绍了在2017年之前使用的噪声信道模型在语音识别和机器翻译中的应用。这些模型通过结合转导模型和语言模型来进行预测。大规模语言模型的发展:讨论了早期的n-Gram语言模型,如Google n-Gram模型,这些模型基于网页文本进行训练,并覆盖多种语言。接着,文件还对比了近年来的一些大规模语言模型(LLMs),如GPT-2、GPT-3、PaLM等。
2024-09-05 18:31:26 924
原创 CMU 10423 Generative AI:HW0
熟悉PyTorch的基本使用:通过阅读教程和实践任务,学生能够掌握PyTorch的基本操作,包括模型构建、数据处理、训练和评估等。学习Weights & Biases工具的使用:通过在代码中集成wandb,学生可以学会如何追踪和可视化模型的训练过程和性能。探索不同的模型和优化器:通过修改初始模型结构和使用不同的优化器,学生可以理解不同设计选择对模型性能的影响。阅读PyTorch教程。
2024-09-05 16:33:41 944
原创 CMU 10423 Generative AI:lec1
该文件是卡内基梅隆大学机器学习系的 “10-423/10-623 Generative AI” 课程第一讲的概述。生成式AI的定义和目标:介绍了生成式人工智能(GenAI)的基本概念,并讨论了其在人工智能(AI)的不同子目标(如感知、推理、控制、规划、通信、创造力和学习)中的应用。生成模型的多种形式:讨论了生成模型在文本、图像、音乐、代码和视频生成中的应用,包括RNN语言模型、Transformer语言模型、GANs、Diffusion Models等。自动微分和RNN-LMs。
2024-09-03 15:19:12 1206
原创 内网穿透:远程访问内网IP中的电脑
家里电脑在路由器内网中,能连外网。想在外地时能ssh(也即vscode)访问家里的电脑。win11(Ubuntu流程也一模一样)具体流程。
2023-03-21 15:02:36 2245 1
原创 ViT(vision transformer)原理快速入门
本专题需要具备的基础:了解深度学习分类网络原理。 了解2017年的transformer。Transformer 技术里程碑:ViT简介时间:2020年CVPR论文全称:《An Image is Worth 16*16 Words: Transformers for Image Recognition at Scale》发明人:谷歌团队简介:论文中提出了 Vision Transformer (ViT),能直接利用 Transformer 对图像进行分类,而不需要卷.
2021-12-09 10:08:38 20504 9
原创 CS131专题-8:图像纹理
目录1 什么是图像纹理1.1 不规则纹理1.2 规则纹理2 纹理描述(提取方法)3 纹理滤波器组4 一些滤波器提取的纹理效果5 使用高维向量描述纹理6 图像纹理提取的应用应用1:图像分类应用2:纹理特征图像检索应用3:通过纹理描述场景类别应用4:分割航空图像1 什么是图像纹理1.1 不规则纹理1.2 规则纹理2 纹理描述(提取方法)如果我们使用高斯偏导核,对图像进行卷积,x方向的偏导可以得到竖直纹理,y方向的偏导得到的是水平纹理
2021-12-06 15:23:52 2238
原创 CS131-专题7:图像特征(SIFT算法)
速记要点:SIFT是什么:全称Scale Invariant Feature Transform尺度不变特征转换,2004年的论文。可以检测出图像中的局部特征点。 SIFT算法特点: 稳定性:SIFT是图像局部特征,对旋转、尺度、亮度、仿射、噪音都保持一定程度的稳定性。 区分性:图像中检测到的这些局部特征各自区分性好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配。 多量性:即使少数的几个物体也可以产生大量的SIFT特征向量。 高速性:经优化的SIFT匹配算法甚至可以达到实时的
2021-12-03 11:00:26 3842 3
原创 CS131专题-6:图像特征(Blob检测、LoG算子、Harris-Laplacian)
本专题介绍的技术应用已不广,但是这些有利于理解SIFT算法的原理,也有助于感悟CV传统技术的发展变迁,以及解决问题的思路。速记要点:blob是什么:blob是描述图像中局部区域的平均像素强度的特征。而图像中局部的平均像素强度具有尺度不变性。blob特征画在图像上就是个圆。blob特征有什么性质:具备光强强度、旋转不变性,但是不具备尺度和仿射不变性。blob检测的大概流程:用不同尺度的拉普拉斯核(需要归一化),对原图上每个像素点做卷积,如果某个结果有邻域内最大值,则这个像素点位置,就有个.
2021-12-01 17:10:12 2694 2
原创 CS131专题-5:图像特征——Harris角点
目录1 图像特征2 点特征——Harris角点2.1 角点2.2 数学描述2.3 公式推导2.4 公式的物理意义2.5 算法流程2.6检测效果2.7 Harris角点性质1 图像特征试想,从不同的距离,不同的方向、角度,不同的光照条件下观察一个物体时,物体的大小、形状、明暗都会有所不同。但我们依然可以判断它是同一个物体。 这是因为什么呢?因为特征!计算机视觉中常用的图像特征包括:点、边缘、以及特有的组件等等。而其中点特征(不是指像素点,而是指图像.
2021-11-21 23:21:35 2752
原创 CS131专题-4:拟合(最小二乘、RANSAC、霍夫变换)
本专题目的:了解最小二乘、RANSAC、霍夫变换这3个算法的基本原理,能够做到脱口而出,并从零编程实现。目录1 前言2 最小二乘2.1 基本原理2.2 求解方法3 RANSAC 算法3.1 基本原理4 霍夫变换4.1 基本原理——检测直线4.1.1极坐标系4.1.2 找到参数空间中交点密集位置的方法4.1.3 一些效果图4.2 基本原理——检测圆4.3 霍夫变换的其他应用5 总结1 前言上一专题知道了如何提取图像中边缘像素,本专题我们.
2021-11-12 18:25:53 5786
原创 CS131专题-3:图像梯度、边缘检测(sobel、canny等)
目录1 前言2 图像梯度2.1 梯度公式的离散形式2.2 图像的梯度表示2.3 图像梯度的最简单计算方法2.4 直接应用梯度找图像边缘的问题以及解决方案3 边缘检测3.1 好的边缘检测器应具备的要素3.2 简单的边缘检测算子3.2.1——Prewitt(普鲁伊特)算子3.2.2——soble(索贝尔)算子3.2.3——Laplacian(拉普拉斯)算子3.2.4——Roberts罗伯特交叉算子3.2.5——上述4种算子的总结:3.3 Canny..
2021-11-10 19:59:56 5922 2
原创 CS131专题-2:高斯核、噪声、滤波
目录1 高斯核1.1 一维定义1.2 二维定义1.2.1 应用高斯核的过程1.2.2 不同σ值的高斯核情况1.2.3 不同核宽度情况1.2.4 高斯核(滤波)特性2 噪声 和 滤波2.1 椒盐噪声、脉冲噪声2.1.1 形成原因2.1.2 滤波方法2.1.3效果2.2 高斯噪声2.2.1 形成原因2.2.2 滤波方法2.2.3 效果1 高斯核高斯核在图像处理中有广泛应用(后面很多地方会用到),它用正态分布计算图像中每个像素的变换。1.
2021-11-08 19:30:40 4693
opencv_python-4.4.0-cp37-cp37m-win_amd64.whl
2020-07-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人