- 博客(1187)
- 资源 (36)
- 收藏
- 关注
原创 笔记-开窍目录
跨学科重要模型帮我们看清生活里的各种陷阱,避开那些年轻人最容易踩的雷区,打开多学科视角,学会独立思考,真正学以致用,解决工作和生活中的实际问题。
2024-03-29 09:49:45 362
原创 笔记-《A Survey of Large Language Models》- 尾声
Sutton, S.Schuh, K.Lomeli, L.Mann, E.Perez, N.5547–5569.[Online].[152] J.Austin, A.Odena, M.I.Nye, M.353–355.[177] P.V.ACM, 2022.559–578.Drain, S.Fort, D.4582–4597.Yih, Eds.8410–8423.[240] Q.Zhang, M.Chen, A.He, Y.Cheng, W.
2024-03-27 09:00:41 1755
原创 笔记-《A Survey of Large Language Models》- 8 总结与未来方向
8 总结与未来方向在这篇综述中,我们回顾了 LLM 的最新进展,并介绍了理解和利用 LLM 的关键概念、发现和技术。我们重点关注大模型(即大小超过 100 亿的模型) ,并未考虑与早期 PLM(例如 BERT 和 GPT-2)的相关内容,因为它们已经在现有文献中得到了很好的综述。具体来说,我们的综述讨论了 LLM 的四个重要方面,即预训练、适配微调、应用和评估。针对每个方面,我们重点介绍了对 LLM 成功至关重要的技术或发现。此外,我们还总结了开发 LLM 的可用资源,并讨论了实现 LLM 的重要
2024-03-27 08:59:44 594
原创 笔记-《A Survey of Large Language Models》- 7 能力评测
7 能力评测为了检验 LLM 的有效性和优越性, 已有研究采用了大量的任务和基准数据集来进行实证评估和分析。首先,我们会介绍LLM 在语言生成和语言理解方面的三种基本评估任务。然后会介绍 LLM 在几种更复杂的设定或目标下的高级任务。最后,会讨论现有的基准和实证分析。7.1 基础评测任务在本部分中,我们主要关注 LLM 的三种评估任务,即语言生成、 知识利用和复杂推理。7.1.1 语言生成根据任务定义,现有语言生成的任务主要可以分为语言建模、条件文本生成和代码合成任务。需要
2024-03-26 18:29:24 861
原创 笔记-《A Survey of Large Language Models》- 6 使用
6 使用经过预训练或适配微调之后, 使用 LLM 的主要方法是为解决各种任务设计适当的提示策略。一种典型的提示方法是将任务描述和(或)示范(demonstration)以自然语言文本的形式表达的上下文学习(in-context learning, ICL)此外,采用思维链提示(chain-of-thought prompting) [32] 可以通过将一系列中间推理步骤加入提示中来增强 ICL。6.1 上下文学习6.1.1 上下文学习的形式ICL 使用一种由任务描述和(或)作为示范
2024-03-26 12:26:23 489
原创 笔记-《A Survey of Large Language Models》- 5 适配微调
5 大语言模型的适配微调LLM 的能力可以进一步适配(adapting)到特定的目标。本节中,我们将介绍两种适配预训练后的 LLM 的方法:指令微调(instruction tuning)和对齐微调(alignment tuning)指令微调(instruction tuning)旨在增强(或解锁) LLM 的能力对齐微调(alignment tuning)旨在将 LLM 的行为与人类的价值观或偏好对齐。5.1 指令微调本质上,指令微调是在自然语言格式的实例(insta
2024-03-25 22:15:08 520
原创 笔记-《A Survey of Large Language Models》- 4 预训练
4 预训练预训练为 LLM 的能力奠定了基础。 通过在大规模语料库上进行预训练, LLM 可以获得基本的语言理解和生成能力 [55, 56]。在这个过程中, 预训练语料库的规模和质量对于 LLM 获得强大的能力至关重要。此外,为了有效地预训练 LLM,也需要设计好模型架构、 加速方法和优化技术。第 4.1节讨论数据收集和处理第 4.2节介绍常用的模型架构第 4.3节介绍用于稳定高效地优化 LLM 的训练技巧。4.1 数据收集相比小规模语言模型, LLM 更需要高质量数据来预训练模型
2024-03-25 09:23:12 1687
原创 笔记-《A Survey of Large Language Models》- 3 大语言模型资源
3 大语言模型资源3.1 公开可用的模型检查点或 API百亿参数量级别的模型:LLaMA (最大版本 650 亿参数)NLLB(最大版本 545 亿参数)大多在 100 亿至 200 亿之间Flan-T5 (110 亿版本) 可以作为研究指令微调的首选模型CodeGen(11B)是一个为生成代码设计的自回归语言模型,可用作探索代码生成能力的候选模型。对于多语言任务,mT0(13B)可能是一个比较好的候选模型对于中文的下游任务,PanGu-α具有较好的表现百亿参数量级别的模型通常需
2024-03-23 06:59:10 426
原创 笔记-《A Survey of Large Language Models》- 2 概述
62]中的实验证明,当模型大小达到680亿时,经过指令微调的LaMDA-PT[63]开始在未见过的任务上显著优于未微调的模型,但对于80亿或更小的模型大小则不会如此。然而, 需要注意的是,数据扩展应该经过谨慎的清理过程,因为预训练数据的质量在模型能力中起着关键作用。正如[33]中所分析的那样,随着给定计算预算的增加,KM扩展法则更偏向于将更大的预算分配给模型大小,而Chinchilla扩展法则则认为模型大小和数据大小应该以相同的比例增加,即在公式(3)中的α和b取相近的值。
2024-03-23 06:58:30 605
原创 笔记-《A Survey of Large Language Models》-引言
1 引言语言建模的研究可以分为四个主要发展阶段:统计语言模型(SLM)、神经语言模型(NLM)、预训练语言模型(PLM)、大语言模型(LLM)·统计语言模型(SLM):基本思想是基于马尔可夫假设建立词预测模型,例如根据最近的上下文预测下一个词。·神经语言模型(NLM):引入了词的分布式表示这一概念,并在聚合上下文特征(即分布式词向量)的条件下构建词预测函数。开创了将语言模型用于表示学习(超越词序列建模)的应用·预训练语言模型(PLM):基于自注意力机制的高度并行化Transformer架构。确
2024-03-22 13:05:17 340
原创 笔记-自我管理学:极其有用的交叉学科
想要在一个组织或公司当中获得更大的提升,就要做好身价管理。做好身价管理与一个产品能在市场上能卖个好价钱一样,需要满足四点需求:第一,要成为有差异化竞争力的产品;第二,抓住客户需求;第三,产品包装很重要;第四,善于与外界交流,增加产品的流动性。遵循钟摆运动原理,让自己在身体疲乏之前便刻意休息,为身体补充能量。有效的休息方式就是设计一些简单易行的小动作,把建立习惯与那些开心的事绑定在一起进行,让整个过程变得更容易。利用碎片化时间运动,或者创造性地选择适合自己的运动方案,可以增强体能,提升生活质量。
2024-03-22 09:15:46 204
原创 笔记-生理学:重新认识你的『身体』
介绍了睡眠、基因表达、神经递质、激素、微生物和它跟饮食的关系。也总结了睡眠、运动、饮食和心情者健康四宝。希望大家能记住少吃、多动、早睡和静心这八字箴言。大脑在睡眠时间里,就一直做着将清醒时学到的各种知识从中短记忆搬运到长时记忆区的工作。所以一旦缺失睡眠阶段所做的记忆搬运工作,我们的记忆效率就会大幅下降。真正拥有少睡基因的人在全部人群里面的占比远远低于1%。如果大多数的人刻意少睡,只会导致记忆衰退、免疫力下降,让自己变成亚健康的状态。我们会感觉兴奋或情绪受到抑制,其实是因为受到神经递质影响的关系。
2024-03-21 09:48:04 148
原创 笔记-会计学:金钱的哲学
现金流量表是决定所有新生事物生死的表格,同时也是对年轻人开创人生新局面最有用的一张表格。如何获得无形资产呢?建议大家去提升三种基础能力。第一是写作能力第二是图形设计能力第三是提升对新兴产业的理解能力自住型房产不仅不能提供收入,而且每个月还会产生物业、水、电、煤等费用,所以它不算是好资产。是否贷款购买自住房产是很多人人生的分水岭。购买的自住房产越贵,贷款就会越多,就越容易被锁死在中产者的行列。在高产低债者看来,收入是用来投资以获取更多收入的工具。而在有产
2024-03-21 09:46:46 217
原创 笔记-《A Survey of Large Language Models》-了解
最后,论文对LLMs的未来发展趋势进行了展望,提出了一些可能的改进方向和挑战,如模型的效率问题、隐私保护问题以及伦理问题等。这些问题都是当前LLMs领域研究的热点和难点,也是未来研究的重要方向。中文翻译版本链接: https://github.com/RUCAIBox/LLMSurvey/blob/main/assets/LLM_Survey__Chinese_V1.pdf。首先,论文回顾了LLMs的发展历程,从早期的统计语言模型到近年来基于深度学习的预训练语言模型,展示了LLMs技术的不断演进和突破。
2024-03-20 09:23:27 351
原创 笔记-《A Survey of Large Language Models》
摘要1 引言语言建模的研究可以分为四个主要发展阶段:统计语言模型(SLM)、神经语言模型(NLM)、预训练语言模型(PLM)、大语言模型(LLM)·统计语言模型(SLM):基本思想是基于马尔可夫假设建立词预测模型,例如根据最近的上下文预测下一个词。·神经语言模型(NLM):引入了词的分布式表示这一概念,并在聚合上下文特征(即分布式词向量)的条件下构建词预测函数。开创了将语言模型用于表示学习(超越词序列建模)的应用·预训练语言模型(PLM):基于自注意力机制的高度并行化Transformer架
2024-03-20 09:22:04 462
原创 笔记-历史学:以史为镜,正人衣冠
突破学习历史的线性思维,了解历史发展的拼图模式。分合循环、动静循环告诉我们,这个世界唯一不变的就是变化。竞争是比合作更贴近底层的社会规则。先进文明是技术发展的底层原因。从过度复古主义和过度未来主义的危害中,可以了解『不急转弯』的哲学蕴含的深刻智慧。
2024-03-19 09:36:47 403
原创 笔记-营销学:其实人人都需要
介绍了营销学最重要的基石,那就是理解需求。还讲了著名的『定位理论』,影响力的六大因素:稀缺、从众、喜好、互惠、承诺以及权威。除此之外,还有『弱者为王』的弱传播假说、品牌的符号学原理和品牌共鸣金字塔,希望这节课能够对大家有所启发。营销学最重要的基石是理解需求。通过定位理论,找到自己的生态位,是突破同质化内卷竞争的关键。在传播学里『弱者为王』,越是弱小轻微的东西,越有利于营销内容的传播。所谓品牌,本质上是一种心理符号,它跟特定国家和民族的社会文化、符号资源、语言体系都息息相关。跟用户达成共鸣,让他们愿意用你来
2024-03-19 09:35:53 415
转载 【转载】基于LLaMA Factory,单卡3小时训练专属大模型 Agent
LLaMA Factory 在今后还将不断升级,欢迎大家关注我们的 GitHub 项目。同时,我们也将本文的模型上传到了 Hugging Face,如果您有资源,一定要亲自动手训练一个大模型 Agent!
2024-03-18 21:11:30 306
转载 【转载】【ChatGLM3】(7):在autodl上,使用A50显卡,使用LLaMa-Factory开源项目对ChatGLM3进行训练,非常方便的,也方便可以使用多个数据集
工具还是非常的简单,可以把机构参数进行设置下。主要就是把参数可视化,同时把结果也可视化。非常的方便。进度也可以看到。
2024-03-18 20:27:00 366
原创 笔记-概率统计学:人生系统
我们在理解小概率事件的真实概率的时候,直觉会有重大错误。就算基础概率很小,但如果新证据层出不穷,最终概率也可能会慢慢变得很大。选择比努力重要。我们既要冷静地看待事物的基础概率,不要被表面现象所迷惑,同时又要在新证据不断出现的时候,及时调整对全局的评估,不能一条路走到黑。面对问题时,真正有效的方法是让自己保持更多的耐心,做更多的尝试。拿到更多数据后,再慢慢总结经验,不要太快给一件事情贴上标签。在人生中,要学会利用贝叶斯公式,不断拓宽自己的眼界,减少对世界偏颇的理解,多看到事物的不同方面。尤其当基础概率发生重大
2024-03-18 13:26:09 1530
原创 笔记-人类学:共识的力量
* 我们原来认为,必须将自己的基因传递下去,人生才是完整的;但当我们理解了模因的存在之后,也就理解了人类延续自己存在的方式不只有基因,还可以通过文化创造和传承给下一代。** 人类的晚熟也并非坏事,晚熟的人恰恰有更多的时间,来让自己的大脑发育出更加强大的功能。
2024-03-18 13:23:42 360
原创 笔记-信息论:利用信息消除世界的不确定性
* 在传达信息的过程中,一些废话或重复信息不仅不是不好的,反而还是一种必要的存在。否则,冗余度太低,就会增加人们接收信息的难度。
2024-03-17 09:15:06 427
原创 笔记-社会网络学:有人的地方就有江湖
如果你是职场新人,只要有机会,你就要去占据传统大结构面向年轻人沟通的位置,这样才可能获得更快的升迁机会。无论是找到一份新工作,还是找到一个重要的投资机会、拿到一个重要的新项目,一般能帮得上忙的往往是那些我们认识却不熟悉的人。而要建立成功的弱联系,重点不是你直接认识多少人,而在于你能与多少个枢纽型的人保持一定的联系。进入一个行业后,想要打破论资排辈的现状,实现弯道超车,就要想办法创造一种带有全新吸引力的、跟前辈维度完全不同的玩法,这样才能吸引新进入的节点放弃追逐旧的连接王者,转而跟你产生连接。索取之前要先给予
2024-03-17 09:13:08 433
原创 笔记-认知心理学:锻炼清晰的认知头脑
感觉存储根本无法把信号传入短时记忆,也谈不上后来的长时记忆,以及分析、理解、判断等。所以,我们进入一个行业或一家大公司,在面试的阶段或与其中的人员交流时,一定要多使用他们平时常用的词汇。
2024-03-16 09:14:10 333
原创 笔记-脑科学:了解真正的自己
人类不断进步和知行合一的关键,来自我们更加容易控制的人类脑对于更加不可控的爬行脑的驯化。刻意练习就是这样一个过程。爬行脑负责的功能,大部分都属于我们驯化不了的深层本能。在学习过程中,我们唤醒的脑区越多,掌握的知识也会更多、更深刻。这个原理不仅适用于学习,也适用于营造体验、打造品牌、社交沟通等很多领域。越是底层的大脑,越不受理性的控制,也越容易被他人所控制。哺乳脑中的边缘系统可以影响人的情绪的好坏,爬行脑负责人最基本的生理活动,绝大多数功能都不能通过理性去训练和控制,只有呼吸可以适当训练。当我们要做一件事或学
2024-03-16 09:08:37 397
转载 【转载】用通俗易懂的方式讲解大模型:使用 Docker 部署大模型的训练环境
Docker 安装与主机安装的方式相比,我们少安装了 CUDA 和 PyTorch 程序,多安装了和下载 Docker 镜像,但整体花费的时间其实是减少了的(因为 CUDA 和 PyToch 安装时间比较长)。Docker 安装最大的好处就是可以随时切换不同的环境,而且不会影响到主机的环境。
2024-03-15 23:36:25 710
转载 【转载】用通俗易懂的方式讲解大模型:Llama2 部署讲解及试用方式
Llama2 的发布是一个里程碑式的事件,它是一个免费可商用的大型预训练语言模型,可以接收任何形式的自然语言文本输入,并产生文本形式的输出。Llama2 的发布将会对 AI 产生深远的影响,它将会成为 AI 产业的一个重要组成部分,也将会成为 AI 产业的一个重要基础设施。希望今天的文章能够帮助到大家部署自己的 Llama2,如果在部署的过程中遇到问题,欢迎在评论区留言。关注我,一起学习各种人工智能和 AIGC 新技术,欢迎交流,如果你有什么想问想说的,欢迎在评论区留言。
2024-03-15 23:22:02 340
转载 【转载】用通俗易懂的方式讲解大模型:代码大模型盘点及优劣分析
GitHub Copilot 是由 OpenAI 和 GitHub 共同开发的,它使用了一个大型的语言模型(Codex),这个模型是在大量的公开源代码上进行训练的。Copilot 可以理解自然语言和代码,因此它可以根据开发者的描述来生成代码,也可以根据已有的代码来生成新的代码。这使得 Copilot 不仅可以帮助开发者快速编写代码,还可以帮助他们学习新的编程语言和技术。
2024-03-15 23:11:14 727
转载 【转载】用通俗易懂的方式讲解大模型:Prompt 提示词在开发中的使用
在本文中,我们深入探讨了 Prompt 提示词在开发中的使用。通过对信息提取的讨论,我们了解到 Prompt 可以有效地提取用户提供的有用信息,提高了数据的获取效率。在讨论信息分类时,我们看到了 Prompt 如何判断信息类型,有助于进行精确分类,以及在进一步数据处理中的巨大作用。在信息检查的部分,我们发现 Prompt 能够在早期阶段辅助识别并处理信息中的问题,这在避免错误、优化系统性能方面都起到了关键作用。
2024-03-15 22:54:53 328
转载 【转载】用通俗易懂的方式讲解大模型:基于 LangChain 和 ChatGLM2 打造自有知识库问答系统
添加知识库文档步骤如下:先选新建知识库输入知识库名字,点击“添加至知识选项”上传文件,完了后点击“上传文件并加载知识库”然后就可以基于这个知识库进行问答了,操作十分简单。本文介绍了 GPU 服务器的选型,ChatGLM2 和 Langchain-ChatGLM 的部署和使用,如果想要了解更多关于 Langchain-ChatGLM 的实现原理,可以在他们 GitHub 仓库中查看更多的信息。如果你想打造属于自身业务的问答系统,可以参考本文的方法,希望可以帮助到你。
2024-03-15 20:43:29 176
转载 【转载】用通俗易懂的方式讲解大模型:基于 Langchain 和 ChatChat 部署本地知识库问答系统
AI 知识库问答系统是一个很有前景的方向,它是对传统知识库系统的一种升级,相信在未来会有很多垂直领域的公司会用到这个技术。从 Langchain Chatchat 项目的发展过程上来看,项目从原来的一个 demo 级别的项目,逐渐向一个完整的产品迈进,在架构、UI 界面、LLM 集成方面也在不断完善,我相信这是一个未来可期的项目。而对于那些还在用老版本的小伙伴,建议尽快升级到新版本,因为项目团队以后的主要精力都会放在新版本的开发上,老版本的功能可能不会再更新了。
2024-03-15 20:26:38 381
转载 【转载】用通俗易懂的方式讲解大模型:使用 FastChat 部署 LLM 的体验太爽了
FastChat[2]是一个用于训练、服务和评估基于大型语言模型的聊天机器人的开放平台。其核心功能包括:最先进 LLM 模型的权重、训练代码和评估代码。带有 WebUI 和与 OpenAI 兼容的 RESTful API 的分布式多模型服务系统。其实 FastChat 的功能非常强大,今天介绍的部署功能只是冰山一角,如果你对 FastChat 感兴趣的话,可以去官方仓库查看更多的信息。今天的文章就到这里,如果在部署的过程中遇到问题,欢迎在评论区讨论。
2024-03-15 20:13:39 628
转载 【转载】用通俗易懂的方式讲解大模型:一个强大的 LLM 微调工具 LLaMA Factory
LLM 微调,也叫做 Fine-tuning,是深度学习领域中常见的一种技术,用于将预先训练好的模型适配到特定的任务或数据集上。这个过程包括几个主要步骤:基础模型选择:选择一个通用文本数据的基础语言模型,使其能够理解基本的语言结构和语义。准备训练数据集:选择一个与目标任务相关的较小数据集。微调:在此数据集上训练模型,但通常使用较低的学习率,以保留基础模型学到的知识,同时学习目标任务的特定知识。评估:在目标任务的验证集上评估模型的性能,需要准备评估数据集。
2024-03-15 19:53:17 190
转载 【转载】Copilot 取消自动付费
转载链接:https://blog.csdn.net/m0_71622680/article/details/135407205。
2024-03-15 09:53:11 769
原创 笔记-函数:预测未来
面对人生中的各种境遇,不要高估2年内自己身上能发生的变化,但也不要低估10年内可能发生的大变化;不要高估坚持2个月能做到的事情,但也不要低估坚持10个月能达到的结果。每种事物、每个行业的发展都会遵循倒U形发展态势,经历上升的曙光期、快速上升的朝阳期、平稳发展的成熟期,以及之后的衰退期。这也为我们提供了一个推测和判断事物未来走向的新的角度。人生通常在经历波峰之后回到低谷,之后又返回波峰。掌握这一规律,我们就可以科学地规划自己的人生,不让自己因为那些短期看起来光鲜亮丽的微观形势,而忽略自己所处的整体大环境或大行
2024-03-15 09:43:04 445
原创 笔记-系统论:既见树木,也见森林
系统有三个组件、五种模型,还讲了杠杆解和储蓄池两大工具。很多看似解决不了的问题,都是因为它们处于一个更大的系统里。要解决这些问题,就要既见树木,也见森林,找到彼此间的联系,从根本上寻找解决方法。系统论五大循环,找到生活中各种各样循环的原因,就能找到改善生活的有效方法。而寻找杠杆解的思维习惯,可以让我们的生活变得简单和高效。储蓄池效应,要扛过漫长的滞后效应,靠的不是决心、毅力和打鸡血,而是精神、情感和金钱上的储蓄池。
2024-03-15 09:40:24 359
转载 【随笔乱写】nvidia container runtime 安装
转载链接:https://blog.csdn.net/qq_35887587/article/details/122988752。
2024-03-14 12:21:38 695
转载 【随笔乱写】Docker 容器满了 - 方法二 更换存储目录
如果输出的是新的路径就代表修改成功了,从这里也可以看出这个配置的官方名称叫 Docker Root Directory(Docker根目录)转载链接:https://blog.csdn.net/tianlangstudio/article/details/126440510。最后锁定了/var/lib/docker这个目录,从名称看就是docker运行时用到的目录.修改或创建docker配置文件: /etc/docker/daemon.json。执行这条命令docker相关的服务也都会启动了。
2024-03-14 12:16:30 80
转载 【随笔乱写】Docker 容器满了 - 方法一 清理
转载链接:https://blog.csdn.net/qq_40432886/article/details/132323036。
2024-03-14 12:10:35 193
原创 笔记-工程学:知行合一的技术
世界上没有解决不了的问题,只有承受不了的成本。只要有无限多的资源和无限多的时间,任何一个人都可以利用分解思维,把复杂的事情分解成易于操作的简单模块,从而逐一解决。但在从『想』到『做』的过程中,又必须具备专注聚焦的能力,让自己像激光一样专注,而不是像手电筒一样散光。量化的关键在于知道应该计算什么,而不是执着于计算结果。建立量化思维需要『三步走』,分别为:找到最容易想到的变量,通过叙事方法找到更多变量,运用简单运算计算结果。列清单可以让复杂的事情变得清晰而有条理,但还需要对其中的内容进行排序,做出甄别与取舍。我
2024-03-14 09:28:25 344
本地搭建属于自己的ChatGPT基于PyTorch+ChatGLM-6b+Streamlit+QDrant+DuckDuckGo
2024-03-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人