自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 DQN算法

参考了神经网络的训练模式,即数据是从数据集中随机采样的(符合独立同分布),采取了将智能体和环境交互产生的样本先存储起来,然后通过采样的方式选取一批样本用来训练神经网络,这样能够保证loss的收敛更稳定和更快。尽管神经网络和 Q表都可以用来近似动作价值函数,但是它们的形式是不一样的,Q表是一个二维表格,而神经网络是一个实实在在的函数。其实还是为了辅助loss的收敛,我理解样本池里的样本并不够多,所以为了避免相邻采样关联性太强,所以需要目标网络的参数保持一定时间不变来维持收敛的稳定性。

2024-06-28 23:39:49 45

原创 系统评估和优化

对于LLM应用的评估和优化传统思路就是:初期在小样本集上开展验证,人工设计的评估标准对构建的prompt进行打分,收集bad case并进一步对prompt进行优化;等prompt稳定后,在大批量数据集上再构建自动化的评估流程。这部分主体就是将大模型直接回答一个问题拆分成细分步骤,这样的话可以减少prompt里各种语义耦合增加的难度。这部分就是对知识库的检索进行优化,包括优化query和知识库里的向量,以及两者之间的匹配方法。里面比较独特的就是大模型评估,因为需要一个能力比被评估模型更强的模型来执行。

2024-06-28 16:26:12 99

原创 构建RAG应用

可以看出在知识库的加持下,可以使大模型的回答更佳稳定并且符合预期。基于之前构建的数据库,结合大模型测试知识库在问答中的作用。

2024-06-27 00:48:35 144

原创 搭建知识库

搭建知识库,首先是要将文字、图片和视频等等映射到向量空间,这些实数向量可以被计算机更好地理解和处理。嵌入背后的主要想法是,相似或相关的对象在嵌入空间中的距离应该很近。这也是视觉领域无监督模型所采用的思想。继而将这些向量存入到向量数据库,方便后面的检索。

2024-06-25 01:02:12 171

原创 强化学习和深度学习

从强化学习和深度学习差别上看:强化学习是在交互中产生样本的,是一个产生样本、算法更新、再次产生样本、再次算法更新的动态循环训练过程;深度学习是一个准备样本、算法更新的静态训练过程。换句话说,预测主要是告诉我们当前状态下采取什么动作比较好,而控制则是按照某种方式决策。就好比军师与主公的关系,军师提供他认为最佳的策略,而主公则决定是否采纳这个策略。这本质上还是跟要解决的问题不同有关,强化学习解决的是序列决策问题,而深度学习解决的是“打标签”问题。强化学习的问题可以拆分成两类问题,即预测和控制。

2024-06-24 20:32:12 148

原创 强化学习预测和控制

具体说来,有模型强化学习尝试先学习一个环境模型,它可以是环境的动态(例如,给定一个状态和一个动作,预测下一个状态)或奖励(给定一个状态和一个动作,预测奖励),即前面小节所讲的状态转移概率和奖励函数。而异策略通常来说更加高效,但是需要让获取样本的策略和更新的策略具备一定的分布匹配条件,以避免偏差。前面提到很多经典的强化学习算法都是免模型的,换句话说在这种情况下环境的状态转移概率是未知的,这种情况下会去近似环境的状态价值函数,这其实跟状态转移概率是等价的,我们把这个过程称为。

2024-06-23 00:06:20 824

原创 LLM API应用

对于具有较强自然语言理解、生成能力,能够实现多样化任务处理的大语言模型(LLM)来说,一个好的 Prompt 设计极大地决定了其能力的上限与下限。分隔符就像是 Prompt 中的墙,将不同的指令、上下文、输入隔开,避免意外的混淆。具体来说,LangChain 框架可以实现数据感知和环境互动,也就是说,它能够让语言模型与其他数据来源连接,并且允许语言模型与其所处的环境进行互动。这块不涉及具体的大模型开发技术,纯粹是大模型的使用方法,但是对于如何最大化发挥大模型的能力非常重要。

2024-06-22 20:38:12 641

原创 强化学习概念

动态规划其实并不是强化学习领域中独有的算法,它在数学、管理科学、经济学和生物信息学等其他领域都有广泛的应用。动态规划具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子问题的过程中保存已经求解的结果,以便后续使用。智能体每一时刻都会接收环境的状态,并执行动作,进而接收到环境反馈的奖励信号和下一时刻的状态。强化学习其实就是将人类/动物在犯错中成长的试错学习方法(吃一堑长一智)用于训练智能体。即智能体做出决策(动作),身边环境的变化称之为状态转移,目标的反馈称之为奖励。(a)多智能体强化学习。

2024-06-20 00:11:46 398

原创 大模型简介

大语言模型(LLM,Large Language Model),也称大型语言模型,是一种旨在理解和生成人类语言的人工智能模型。尽管这些大型语言模型与小型语言模型(例如3.3 亿参数的BERT和15 亿参数的GPT-2)使用相似的架构和预训练任务,但它们展现出截然不同的能力,尤其在解决复杂任务时表现出了惊人的潜力,这被称为“涌现能力。

2024-06-19 23:09:48 947

原创 第七讲 OpenCompass大模型评测

笔记大模型评测的意义首先,研究评测对于我们全面了解大型语言模型的优势和限制至关重要。尽管许多研究表明大型语言模型在多个通用任务上已经达到或超越了人类水平,但仍然存在质疑,即这些模型的能力是否只是对训练数据的记忆而非真正的理解。例如,即使只提供LeetCode题目编号而不提供具体信息,大型语言模型也能够正确输出答案,这暗示着训练数据可能存在污染现象。 其次,研究评测有助于指导和改进人类与大型语言模型之间的协同交互。考虑到大型语言模型的最终服务对象是人类,为了更好地设计人机交互的新范式,我们有必要全面

2024-04-24 15:24:32 924

原创 第六讲 Lagent & AgentLego 智能体应用搭建

这种框架的设计目的是为了简化和提高基于这种模型的代理的开发效率。LLM模型是一种强大的工具,可以用于模拟和管理复杂的系统,而Lagent就是这种模型的实现。2、AgentLego 所实现的目标检测工具是基于 mmdet (MMDetection) 算法库中的 RTMDet-Large 模型,因此我们首先安装 mim,然后通过 mim 工具来安装 mmdet。AgentLego 通过提供一个易于扩展、易于使用、易于部署的工具集合,让大家能够轻松地在各种 Agent 系统中发挥想象力,赋予大模型更强大的能力。

2024-04-22 07:18:06 431

原创 第五讲 XTuner 微调 LLM

3. XTuner支持多款开源大模型,如书生、Llama、阿里的通义千问、百川大模型和清华的chatGLM等。原始数据--标准格式数据--添加对话模板--Tonkenized数据--添加label--开始训练。1、Lora:在原本的linear旁新增一个支路,包含两个连续的小linear,叫做Adapter。1、为什么要微调:LLM的下游应用,对齐特殊领域。2、QLora:进一步在加载模型时进行量化。3、查找可用于1.8b模型微调用的配置文件。2、创建用于微调的数据集。

2024-04-20 01:07:35 293

原创 第四讲 LMDeploy量化部署 进阶

KV8量化是指将逐 Token(Decoding)生成过程中的上下文 K 和 V 中间结果进行 INT8 量化(计算时再反量化),以降低生成过程中的显存占用。W4A16 量化,将 FP16 的模型权重量化为 INT4,Kernel 计算时,访存量直接降为 FP16 模型的 1/4,大幅降低了访存成本。常见的 LLM 模型由于 Decoder Only 架构的特性,实际推理时大多数的时间都消耗在了逐 Token 生成阶段(Decoding 阶段),是典型的访存密集型场景。新建Python源代码文件。

2024-04-18 07:50:08 893

原创 第四讲 LMDeploy量化部署

利用LMDploy部署简单方便,而且推理速度比原生Transformer确实在推理速度上有优势。2、大模型部署方法:模型剪枝;量化(降低访存量,牺牲一定精度)1、大模型部署面临的挑战:计算量巨大;3、LMDploy功能:模型高效推理;

2024-04-15 00:01:10 115

原创 第三讲 RAG笔记

解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。RAG范式:Naive RAG;Advanced RAG(检索前后增强);Modular RAG(各种优化技术模块化)RAG(Retrieval Augmented Generation)技术,通过检索与用户输入相关的信息片段,并结合。RAG优化:嵌入优化;RAG 能够让基础模型实现非参数知识更新,无需训练就可以掌握新领域的知识。来生成更准确、更丰富的回答。

2024-04-14 10:00:36 173

原创 第三讲 茴香豆微信部署

2、问题:目前测试了一下,不打开调试模式的话,不会回答问题;打开调试模式,甚至会不停回复上一条的自动回复直到超过最大消息长度。能够回答出预期的结果了。

2024-04-14 01:05:42 124

原创 第三讲 茴香豆:搭建你的RAG智能助理

问答结果很好地从另一片文章里提取了相关的答案,因为上面的答案基本跟这片文章没有太大关系,所以这轮回答的结果真的是很好地提取了不同文章间的关联性。界面主要功能:1、添加文档:用于充实知识库;2、添加正反例:用于过滤不需要响应的问题;3、微信、飞书集成教程;出现了一个很奇怪的现象,感觉正反例没起作用还是啥情况,第一轮是检测相关度低,第二轮回答了第一轮的问题,这个还需要更多尝试。对文献的总结概括相当不错,下面还会给出相应的参考文献。确实起作用了,识别出来“你还,介绍下自己”这是个不应该回答的问题。

2024-04-12 15:19:14 450

原创 第二讲 轻松玩转书生·浦语大模型趣味 Demo 进阶

图文创作交互,输入了一篇高考作文题目,感觉文笔和立意都很好,配的图片第一张非常契合内容,第二张多了个人有点突兀,不过整体感觉非常厉害。第一次计算过程都对,错了一个简单运算;第二次调用解释器就对了。感觉确实如课程所讲的,借用外部解释器准确度更高。感觉上下文关联性不是很强的回答容易答非所问,整体上感觉比较认知性能还是不错的。2、`浦语·灵笔2` 的 `图文创作` 及 `视觉问答` 部署。3、`Lagent` 工具调用 `数据分析` Demo 部署。漏了一个人,感觉漏了那个黄衣服的?

2024-04-06 15:47:49 150

原创 第二讲 轻松玩转书生·浦语大模型趣味 Demo

问题:模型加载时间较长,回车导致demo异常退出和显存异常占用,通过kill对应python线程解决。1、配置环境,包括torch、hugging-face等包。2、从hugging-face-hub下载模型。4、终端交互进行故事创作。3、启动对话demo。

2024-04-04 23:05:15 145

原创 第一讲 浦语大模型全链路开源体系

模型内生计算能力存在不稳定性,通过生成代码然后结合代码解释器,能够提升准确度,是否意味着代码中的胡言乱语少一些?语言建模的本质(数据清洗):(a)多维度数据价值评估 (b)高质量预料驱动的富集 (c)有针对性的数据补齐。国内模型与GPT4表现接近,在中文场景有优势,是因为中文语料更富集还是对中文语料的预处理上更好?InternLM2框架体系: 面对不同应用场景有不同量级和偏向的模型。模型应用趋势:特定任务-专用模型向多模态任务-通用大模型转变。

2024-03-31 11:30:01 97

DInSAR技术资料整理.docx

DInSAR技术资料整理,全称 Differential Interferometric Synthetic Aperture Radar,合成孔径雷达差分干涉测量技术。InSAR技术提取地表DEM,需要假设两次成像期间,地表没有发生变化,地物产生的随机相位也是不变的。而DInSAR则是一种根据多期SAR数据,获取地表形变信息的方法之一。

2020-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除