自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

谁怕平生太急

风起于青萍之末

  • 博客(161)
  • 收藏
  • 关注

原创 读什么书,怎么读

只有当你知道自己是什么样的情况,适合在这种情况下看什么书的时候,才能最大限度提升读书的作用。1、分享、用输出倒逼输入。2、输入-输出-输入。

2024-09-03 08:46:24 79

原创 交叉熵和MSE的区别

交叉熵损失通常用于分类问题,尤其是二分类和多分类问题。它度量的是预测概率分布与真实标签概率分布之间的差异。

2024-07-30 20:57:40 653

原创 黄帝内经 - 4

由《素问》、《灵枢》组成、各9卷、共162篇、是一段时间的医学论文收集、整理、编纂而成。被誉为“医家之宗”。

2024-07-28 18:12:28 326

原创 黄帝内经 - 3

"金生水"意味着金行(肺)有助于水行(肾)的生成或功能。肺主气,主持全身的气,包括呼吸之气和一部分宗气。肺气的调节有助于肾气的升降。肺气充足、通畅时,能帮助肾气的蒸腾气化,使肾的功能得到正常的发挥。肺具有宣发和肃降的功能,能够把体内的津液向全身输布,或者往下输送至肾。津液被输布到肾脏以后,进一步蒸腾化生,成为肾的精气一部分,从而助益肾水。肺金和肾水在生理上相互滋养,肺主呼吸,外合皮毛,肺的清肃作用有赖于肾的滋养。同时,肾脏的精气上承于肺,使肺气得以润泽,从而使呼吸功能增强。

2024-07-26 19:09:05 448

原创 黄帝内经 - 2

合理饮食:每个季节都有适应的食物,可以根据季节调整饮食安排。规律作息:保持规律的作息,保证充足的睡眠,有助于身体恢复和免疫力提升。适度运动:坚持适度的运动,有助于提高身体素质和抵抗力。心情愉悦:保持愉快的心情,减少精神压力,有助于身心健康。以上建议可以根据个人体质和健康状况进行调整,若有特殊健康问题,建议咨询专业医生的意见。

2024-07-26 18:46:56 862

原创 黄帝内经 - 1

黄帝内经 = 素问 + 灵枢形式:黄帝和臣子对话、讨论等内容素问:天人合一、五行学说、气血运行灵枢:经络、针灸。

2024-07-26 11:09:10 753

原创 长期主义:中医

体验一下中医的各类治疗方法,如针灸、推拿、拔罐和草药治疗,这些亲身体验可以帮助你更好地理解中医理论和实践。记住,学习中医是一个长期的过程,需要耐心和恒心。开始阅读一些权威的中医基础书籍。现代中医教材,如《中医基础理论》、《中医诊断学》和《中药学》,也可以给你打下坚实的基础。这些活动通常会请有经验的中医专家进行讲解,能够帮助你深入了解具体的中医知识和实践技能。找到一位经验丰富的中医师进行学习,可以是通过正式的学徒方式,也可以是定期咨询和交流。阅读最新的中医期刊和研究文章,掌握中医领域的新进展和新发现。

2024-07-26 10:49:32 254

原创 刷题-动态规划

获得不相邻的元素最大和输入:[1,2,3,1]输出:4。

2024-07-23 21:04:36 198

原创 Transformer合集

位置编码:https://zhuanlan.zhihu.com/p/454482273自注意力:https://zhuanlan.zhihu.com/p/455399791长文概述:https://zhuanlan.zhihu.com/p/630356292缓存和效果的拉扯(MHA、MQA、GQA、MLA):https://spaces.ac.cn/archives/10091为什么Pre Norm不如Post Norm?

2024-07-23 20:48:38 316

原创 学习资料集合

Triton中部署vLLM:https://github.com/triton-inference-server/tutorials/tree/main/Quick_Deploy/vLLM。源码:https://zhuanlan.zhihu.com/p/659219334 、 https://www.bilibili.com/video/BV1fF41197XT/?经济日报:http://paper.ce.cn/pc/layout/202404/09/node_01.html。

2024-07-23 14:26:10 570

原创 刷题-二分查找

else:return l # 返回 target的最小值、原因是r对应的是最小值-1= target:end = lower_bound(nums, target+1) - 1 # 返回的是 target+1 的最小index。

2024-07-19 16:11:11 143

原创 刷题-二叉树

二叉树的中序遍历class Solution: def inorderTraversal(self, root: Optional[TreeNode]) -> List[int]: # 中序:左中右 ans, stk = [], [] # 用栈来存中间结果 先进后出 while root or stk: if root: stk.append(root) # 根节点先入栈

2024-07-19 15:46:13 208

原创 最简单的Lora训练代码

【代码】最简单的Lora训练代码。

2024-07-19 14:54:08 466

原创 最简单的网络

【代码】最简单的网络。

2024-07-19 13:58:54 142 1

原创 PEFT的几种方式

P-Tuning v2在原有的P-Tuning基础上进行改进,提供了一种称作“深层prompt”的方式,该方式将prompt嵌入到语言模型的每一层中去,而不只是输入层。这两种方法都属于参数效率型微调方法的一部分,即它们通过仅调整相对较少的额外参数来实现对预训练模型的优化,而非直接微调模型的所有参数。在应用上,P-Tuning v2理论上具有在微调时进行更深层次、更灵活和更精细调节模型行为的能力,并且可能提供比原始的P-Tuning更好的任务适应性。将prompt转换为可学习的Embedding层。

2024-07-18 11:17:23 378

原创 Liling weng新blog:幻觉

量子位的总结作者原文

2024-07-17 17:19:01 81

原创 AI教育-Andrej Karpathy(卡帕西)创业了

卡帕西的新工作。

2024-07-17 17:10:52 169

原创 胰岛素与血糖

肾衰竭会导致原本应该出现在尿液当中的东西漂浮在血液里,钙磷失衡使骨头腐烂,过量的氮改变大脑的化学物质 ,钾的变化「扰乱心脏」的电生理状态,一切都是因为身体无法处理糖分导致。,细胞不希望葡萄糖持续涌入,细胞就降低了胰岛素受体(细胞膜糖蛋白、是胰岛素和靶细胞结合的必需品)的数量,意味着不会从血液中接受那么多的糖分,而使葡萄糖留在血液中,,使其脱水,造成神经功能障碍,导致「昏迷」。吃掉大量含脂肪和糖的食物,身体组织吸收的糖分饱和,转为脂肪储存,身体无法处理过量摄入的糖分,便在血液中积聚,(免疫系统被激活),

2024-07-17 15:35:09 166

原创 LLM基础

2020年年中 GPT3.0:LLM往何处去的发展理念● 单从技术角度看,差距主要来自于对LLM的认知以及未来应往何处去的发展理念的不同。选手:OpenAI、Google、MetaLLM的技术脉络、ChatGPT带来的AI研究新范式。LLM从海量数据学到什么、如何存取、规模增大的影响、In Context Learning、Instruct、推理能力、思维链CoT是什么。

2024-07-17 15:28:50 415

原创 读《这就是ChatGPT》

这本书只重点讲了预训练部分,SFT、RM和强化学习未涉及参见OpenAI创始成员、前Tesla AI负责人 Andrej Karpathy 2023年5月的。

2024-07-17 15:21:52 115

原创 读“需求决定论”

【当你的自我被需求填满的时候,你发现过去极为关注的职场,如今不值一提了。那些人和事,尤其是不真心实意的人和形式主义的事,完全不值一提。晋升是一种需求,是对外部的要求,谁说一定要自己付出了?4、基于自我兴趣而产生的需求【最重要】需求有两类:工作需求和个人需求。2、基于个人提高而产生的需求。1、基于家庭而产生的需求。3、基于社交而产生的需求。

2024-07-17 15:09:58 220

原创 读《写作是一门手艺》

作者在这两篇谈写作的结构,先聊结构重要性(易读、易写),再从微观、中观、宏观三个角度拆解结构,从而写出有流动感的文章。● 字句上:要谨慎选择词语抽象层次,把主谓语放在显眼位置,处理好被动与主动,实现句子长短结合,上下句有序衔接。● 段落上:要做到聚焦和机械,时刻把写作目标放在心上,提供给读者一个清晰的主线。这两篇内容的暗线就是 写作人需要加深对读者需求的理解,并吸引其阅读。第19章:作者谈论了结构的定义、分类,拆解后有哪些内容。为什么是这样的,作者用了一个例子,说明大部分读者的状态。【宏观结构的重中之重】

2024-07-17 14:27:52 138

原创 读《纳瓦尔宝典》

纳瓦尔宝典》是一本直面人生宏观问题的药方。给我当前的启示是T字型。纵轴是在自己的领域上做到极致,算法解决实际业务问题。横轴是销售能力、构建能力、人脉资源。人生哲学:做一个创造者,创造出人们想要的有趣的东西。展示你的能力、练习你的技能、最终会有合适的人找到你。

2024-07-17 14:24:28 268

原创 如何锻炼记忆力

12、定期检查健康状况。

2024-07-17 14:19:58 113

原创 RAG相关文章阅读记录

作用:主要利用LLMGraphTransformer来实现知识图谱的生成,将neo4j作为document的存储介质,在检索侧补充 graph search提高检索召回,主要强化深度和上下文的检索能力。亮点:Semantic Router通过存储多个示例查询,并构建embedding存储,新来的query也进行embedding来计算向量相似度。作用:理解用户意图,转发query到能处理的下游。作用:对RAG混合检索回来的多个节点进行排序。作用:方便跟踪向量模型的最近进展。

2024-07-17 10:58:07 109

原创 Qwen2来了

级别二:为了减少 因关键词重叠度不足导致的 上下文错过 的问题,用LLM来判断块和query的相关度,用相关块的相关句子 而不是 query当中的 关键词来检索 最相关的块。级别一:先用LLM来对user query进行“信息”和“指令”的抽取,然后用LLM对信息进行翻译,多语言的角度用BM25来提取相关块…「大量精力:如何扩展多语言预训练 和指令微调数据的规模并提升质量,提升模型的多语言能力」级别三:另外训练一个用于规划的LLM,用级别二的llm作为tool,实现逐级推理。3、多个评测基准上的领先表现。

2024-06-07 16:48:17 650

原创 Prompt示例

Prompt作用:逐步总结所提供的对话内容,添加到先前的摘要中,返回新的摘要要点总结:(1)用空行来划分(2)类似kv的表述:Current summary、New lines of conversation、New summary(3)关键词:EXAMPLE、END OF EXAMPLEEXAMPLE{summary}

2024-06-05 17:23:57 788

原创 多模态模型基础

ViT的位置编码:https://blog.csdn.net/qq_44166630/article/details/127429697QwenVL发布:https://qwenlm.github.io/zh/blog/qwen-vl/

2024-06-04 21:21:37 1386 1

原创 LlamaIndex介绍

教程分成以下部分:1、入门2、学习3、用例4、示例5、高级6、组件指南。

2024-06-04 17:44:22 1003

原创 LangChain v0.2介绍

LangSmith:一个开发者平台,可调试、测试、评估和监控LLM应用程序。LangServe:用于将 LangChain 链部署为 REST API 的包。可以轻松启动并运行生产就绪的 API。LangChain:包含构成认知架构的链、代理和检索策略。无第三方集成。LangChain-Community:包含由 LangChain 社区维护的第三方集成。LangChain-Core:包含不同组件的基本抽象以及将它们组合在一起的方法。无第三方集成。

2024-06-03 15:47:19 297

原创 Agent能力的训练与评估

Agent落地需要按照业务场景进行深度定制和微调训练。

2024-05-31 16:48:12 370

原创 RAG的评估指标

检索精确率:检索到的上下文与回答问题相关的百分比,范围是0-1分。此项是衡量检索的性能。增强准确率:答案中检索到的上下文的百分比,范围是0-1分。此项是衡量增强生成的性能。检索上下文是否进入答案,范围是0-1分。此项是衡量增强生成的性能。分母不同:前者的分母是所有上下文、精确率的分母是相关的检索上下文。答案相似度:LLM结果和参考结果的相似度,范围是0-5分。出现的信息,范围是0-1分,如果不包含,分数为1。答案一致性:答案是否包含检索到的上下文中。此项是衡量最终结果的性能。此项是衡量幻觉的性能。

2024-05-31 10:02:01 666

原创 OFA one-for-all 通用多模态预训练模型

使用简单的序列到序列的学习框架 统一模态 (跨模态、视觉、语言等模态)和任务(如图片生成、视觉定位、图片描述、图片分类、文本生成等)

2024-05-30 19:43:08 254

原创 闲聊大模型推理能力

后的泛化:这些模型通过在海量数据上的训练,学会了识别语言中的模式和关联。当面对一个问题时,它们能够利用这些模式和关联,从其训练数据中“回忆”起相关的信息,并应用这些信息来生成回答。在训练过程时,模型通过分析这些结构,学习了如何将因果关系映射到内部的表示系统里。(3)对模型进行RLHF训练:不断强化LLM的推理策略。(2)在prompt当中提供了与训练数据相似的。(1)LLM训练用的海量文本数据集中包含了。(2)RAG(引入外部数据库作为上下文)(1)垂类训练数据集的多样性增强。,使得LLM存在迁移的可能。

2024-05-22 20:33:21 268

原创 大模型之Flash attention V1

Fast with IO-Awareness:计算快。通过来加快 整体运算速度,这种方法 被称为 O-Awareness。具体是通过 分块计算 tiling 和 核函数融合 kernel fusion 来降低对显存的访问。Memory Efficient: 节省显存。通过 trick 2 使得从 O(N方)降至 O(N)。做到了完全等同于 标准attention的实现方式。问题归纳为:(1)为什么能降低对显存HBM的访问次数:充分利用SRAM。

2024-05-22 19:25:53 596

原创 Agent 如何更有用

先看这篇会更连贯。

2024-05-21 19:39:42 1093

原创 Agent的长期记忆

如果什么时候,可以不断流式的接受外界的输入token,KV Cache一直在GPU内存或者临时换出到CPU内存,这样KV Cache就是AI Agent的工作记忆,或者说AI Agent的状态,这是的Agent或许就是不断进行的“半神”存在。大模型的输入:包括角色设定(system prompt)、最近对话、全局记忆概要(即角色对用户的核心记忆 b.2)、经过RAG的聊天记录分段总结(a.)和分类总结(b.1)。,每次API调用还是无状态的,需要带上前面所有的聊天记录,重复计算所有的KV Cache。

2024-05-21 17:27:30 1498

原创 Agent-FLAN:Agent调优的数据设计和方法

在将代理能力整合到目前通用的LLM中,存在以下3个问题:(1)目前的Agent训练语料库既包含了格式遵循又包含了一般推理,这显著偏离了其预训练数据的分布。

2024-05-20 20:07:20 1202

原创 LangGraph介绍

找一个LangGraph的标准实例、结合代码可以有更好的掌握比较复杂的Agent流程、最好是多循环模式。敬请期待。

2024-05-20 15:47:39 1448

原创 认知架构 cognitive architecture

GPT-Researcher:从执行图来看,是朝一个方向流动的,执行了许多复杂的步骤,但以明确的方式进行:首先生成子问题,然后获得子问题的链接,总结每个链接,最后将摘要合并到研究报告中。这似乎是一个五五开的分配,一半是在于核心模型的改进,另一半是在于弄清楚如何以一种具有代理性的方式将它们最佳连接。如果你的应用依赖于代理的工作,而让代理工作又是具有挑战性的,那么几乎可以说如果你能做好这一点,你就会比你的竞争对手拥有优势。当前问题:从各个方面来看,这种Agent的认知架构并不足以支持严肃的应用。

2024-05-20 11:52:08 1298

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除