自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 transformer02-Attention

依旧基于Encoder-Decoder模型。自注意力—>多头位置编码。

2025-01-19 02:45:36 516

原创 transfomer-01 引言

感觉是科普性更强的一个章节,但是真的非常清晰!很适合理解概念。

2025-01-15 23:38:47 896

原创 【hello-algo】9. 图 BFS DFS

图是一种非线形结构,由顶点和边组成。图能够表示网络关系。

2025-01-05 23:24:21 330

原创 【hello-algo】6 哈希表

先写个python用字典实现哈希表数据结构简单的总结。python中哈希表通常通过dict类型来完成,可以通过key快速查找对应的value。

2024-12-25 16:16:37 601

原创 【书生】L0 linux基础作业

linux命令都比较熟悉,就不操作了。然后记录一张nvidia-smi。根据教程复制代码,并安装gradio,然后本地进行端口映射。配置vscode,公私钥都是成对的,指定私钥文件。helloworld完成端口映射。因为我之前已经创建过了,直接用。

2024-12-19 01:49:33 171

原创 【hello-algo】5 栈和队列 part1栈

自己的学习笔记,大部分内容和书里差不多,按照我自己的学习思路顺的一遍。

2024-11-02 21:49:25 800

原创 【tiny-universe】llm eval:动手实现大模型评测系统

llm评测demo

2024-10-02 00:55:58 1033

原创 【tiny-universe】tiny-agent

简单的agent demo

2024-09-28 02:21:35 386

原创 【tiny-universe】实现一个llm并使用tiny-stories数据集训练

基于llama手搓一个小小的llm

2024-09-23 21:34:24 770

原创 [Datawhale X 李宏毅苹果书 AI夏令营]task3 第2章 实践

实践方法论能够帮助我们更好地训练模型。如果测试集上的结果不太好,要先检查训练数据地损失。如果训练数据地损失很大,显然它在训练集上也没有训练好。

2024-09-02 22:08:25 519

原创 【Datawhale X 李宏毅苹果书】1.2 线性模型。

对两个参数都计算微分,取负数,在乘上学习率,就是梯度下降的方向。不断进行这个过程直到取到最优参数。最简单的一元线性模型,只能考虑到前一天的数据对预测当天的数据的影响。根据领域知识对模型进行修改,使得模型参考前七天的数据。将7天前的数据,通通乘上不同的权重,加起来得到预测结果。用梯度下降得到的最优解为:前一天跟要预测的隔天的数值的关系很大,因此第一个参数是0.79,占据最大的权重。同样的道理可以参考前28天,56天,但是考虑更多天没有办法再更降低损失了。看来考虑天数这件事,也许已经到了一个极限。

2024-08-31 23:54:59 445

原创 《深度学习详解》第三章 深度学习基础

做优化的时候经常会发现,随着参数不断更新,训练的损失不会再下降, 但是我们对这个损失仍然不满意。把深层网络(deep network)、线性模型和浅层网络(shallow network)做比较,可以发现深层网络没有做得更好——深层网络没有发挥出它完整的力量,所以优化是有问题的。但有时候,模型一开始就训练不起来,不管我们怎么更新参数,损失都降不下去。

2024-08-27 23:36:35 332 1

原创 《深度学习详解》第一章 机器学习基础

机器学习是让机器具备找一个函数的能力这个函数就是指模型或者算法,直接将输入转化成我们想要的输出。机器学习有不同的类别,假设要找的函数的输出是一个数值,一个标量,这种任务称为回归。回归——预测任务。除了回归之外,另一个常见的任务是分类,分类任务要让机器做选择题。人类先准备好一些选项,这些选项称为类别,现在要找的函数的输出就是从设定好的选项中选择一个当作输出,这个任务就是分类。分类包括二分类和多分类。还有结构化学习。

2024-08-27 22:14:24 661

原创 【动手学大模型】第六章 验证迭代

以调用和发挥大模型的大模型开发相较于传统的AI开发更注重验证迭代。在使用LLM构建应用程序时,可能会经历以下流程,首先,你会在一到三个样本的小样本中调整 Prompt ,尝试使其在这些样本上起效。随后,当你对系统进行进一步测试时,可能会遇到一些棘手的例子,这些例子无法通过 Prompt 或者算法解决。这就是使用 LLM 构建应用程序的开发者所面临的挑战。在这种情况下,你可以将这些额外的几个例子添加到你正在测试的集合中,有机地添加其他难以处理的例子。

2023-11-24 14:45:52 290 1

原创 【动手学大模型】第五章 prompt设计

prompt就是用户与大模型交互输入的代称。和。

2023-11-22 11:00:00 2369 1

原创 【动手学大模型】第四章 数据库搭建

向量数据库是用于高效计算和管理大量向量数据的解决方案。向量数据库是一种专门用于存储和检索向量数据(embedding)的数据库系统。它主要关注的是向量数据的特性和相似性。在向量数据库中,数据被表示为向量形式,每个向量代表一个数据项。这些向量可以是数字、文本、图像或其他类型的数据。向量数据库使用高效的索引和查询算法来加速向量数据的存储和检索过程。Langchain 集成了超过 30 个不同的向量存储库。我们选择 Chroma 是因为它轻量级且数据存储在内存中,这使得它非常容易启动和开始使用。

2023-11-20 21:17:43 649 2

原创 【动手学大模型】第三章 大模型开发流程及架构

开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为。开发大模型相关应用,不需要实现大语言模型,而是通过调用API或开源模型来实现核心的理解与生成,通过prompt Enginnering来实现大语言模型的控制。将大模型作为一个调用工具,通过 Prompt Engineering、数据工程、业务逻辑分解等手段来充分发挥大模型能力。大语言模型的两个核心能力:指令理解 与 文本生成 提供了复杂业务逻辑的简单平替方案。

2023-11-20 15:37:32 1955 1

原创 【动手学大模型】第二章 调用大模型API

最初是NLP研究中为下游任务设计出来的一种任务专属的输入模板,类似于一种任务对应一种prompt。在ChatGPT推出并获得大量应用之后,开始被推广为给大模型的所有输入。即,每一次访问大模型的输入为一个Prompt,而大模型给我们的返回结果为Completion。

2023-11-18 21:19:05 4746 1

原创 【动手学大模型】第一章 大模型简介

语言建模最早使用统计学习的方法,通过前面的词汇来预测下一个词汇。其在理解复杂语言规则方面存在一定局限性。之后引入了深度学习的思想,使用神经网络模型来更好的捕捉语言中的复杂关系。随着Transformer架构的神经网络模型引入,通过大量的文本数据训练,模型可以深入理解语言规则和模式。同时研究人员发现,随着语言模型规模的扩大,比如增加模型大小和使用更多的训练数据,模型展现出了惊人的能力,也就是大语言模型时代。

2023-11-18 20:05:21 492 1

原创 【动手学深度学习】Task4 多层感知机

主要学习第四章:多层感知机感知机是一个二分类模型,它的求解算法等价于使用批量大小为1的梯度下降。它不能拟合XOR函数,导致了第一次AI寒冬这个task主要是学习了感知机的原理、代码实现,以及模型的一些有关知识b。

2023-03-28 21:33:50 240

原创 《动手学深度学习》 线性代数、矩阵计算、自动求导

反向求导因为反向求导需要记住计算的中间结果,因此消耗资源多。正向求导。

2023-03-28 17:23:15 168

原创 【动手学深度学习】线性神经网络

线性回归是对哪位输入的加权,外加偏差使用平方损失来衡量预测值和真是值的差异线性回归有显示解线性回归可以看做单层神经网络梯度下降通过不断沿着反梯度方向更新参数求解。小批量随机梯度下降是深度学习默认的求解算法两个重要的超参数:学习率,学习率定义初始化模型参数 w,b定义模型。定义损失函数:均方损失定义优化算法:小批量随机梯度下降Softmax回归是一个多分类问题。使用Softmax操作子得到每个类的预测置信度使用交叉熵来衡量预测和标号的区别。

2023-03-23 23:59:08 117

原创 线性模型直播笔记

对于单标签的分类任务,一条样本只属于一个类型,故称其是one-hot,只有一个位置的概率是1,其余为0.相比于回归任务度量是两个数值的差异,分类任务需要度量的是两个概率分布的差异。多元函数对各个参数求偏导,然后将求得的偏导以向量的形式表示出来就叫做。静态图和动态图,torch动态图反向传播的时候会把图销毁。用来表现模型预测结果与实际数据的差距程度,越小效果越好。对于已知的一条样本,标签y称为one-hot的形式。数据分析:预测目标、数据的大致分布、当前数据的规模。分类模型输出的是一个概率分布。

2023-03-23 23:58:58 96

原创 【Open Learning Camp】Task 2数据操作和数据预处理

《动手学深度学习笔记》

2023-03-21 21:21:21 229

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除