![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型读书笔记
等风来随风飘
这个作者很懒,什么都没留下…
展开
-
大模型学习笔记10——大模型法律与环境影响
在我们训练大型语言模型时,我们必须面对版权和公平使用的问题。由于网络爬取的未筛选性质,你必须诉诸公平使用(从每个人那里获得许可证将非常困难)。模型的生成性可能会对争论公平使用提出挑战(可以与人类竞争)。在什么水平上进行调控(语言模型还是下游应用)是有意义的?这个领域正在迅速发展,需要深入的法律和人工智能专业知识才能做出明智的决定!原创 2024-01-23 11:15:26 · 440 阅读 · 0 评论 -
大模型学习笔记09——大模型的有害性
虚假信息需要满足以下条件:新颖(避免被基于哈希的内容审核系统检测),通顺(被目标受众易读),有说服力(被目标受众所信),并传达虚假信息战役的信息。当前的虚假信息创造过程既昂贵又慢(如俄罗斯需要懂英语的人)。未来,恶意行为者可能会更多地使用AI来进行虚假信息的创造(例如,普京在2017年曾表示:“人工智能是未来,不仅是俄罗斯的未来,也是全人类的未来”)。内容审查:与有害内容的问题在现实世界中的对应(独立于语言模型)。毒性是依赖于上下文的,需要考虑的是人而不仅仅是文本。原创 2024-01-23 10:51:28 · 472 阅读 · 0 评论 -
大模型学习笔记08——分布式训练
模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为内存墙的存在,单一设备的算力及容量,受限于物理定律,持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。为了解决算力增速不足的问题,人们考虑用多节点集群进行分布式训练,以提升算力,分布式训练势在必行。原创 2024-01-21 23:14:34 · 524 阅读 · 0 评论 -
大模型学习笔记07——大模型之Adaptation
学习内容地址:添加链接描述原创 2024-01-21 21:52:27 · 565 阅读 · 0 评论 -
大模型学习笔记06——模型训练
三类语言模型的目标函数:笔记原始内容地址:添加链接描述原创 2024-01-20 10:39:13 · 490 阅读 · 0 评论 -
大模型学习笔记05——大模型的数据
Hugging Face发起的BigScience项目旨在收集一个大型多语种数据集并训练一个大型语言模型。BigScience的数据治理工作组正在开发一个框架,以负责任地策划高质量的数据源,而不是无差别地爬取网页。原创 2024-01-19 13:09:01 · 1044 阅读 · 0 评论 -
大模型学习笔记04——新的模型架构
核心思想:创建一组专家,每个输入只激活一小部分专家。原创 2024-01-18 11:20:35 · 439 阅读 · 0 评论 -
大模型学习笔记03——模型架构
根据输入需求的语言描述(Prompt)生成符合需求的结果(completion)原创 2024-01-17 13:53:14 · 483 阅读 · 0 评论 -
大模型学习笔记02——大模型的能力
GPT-3的表现不稳定增加模型的大小和示例的数量都有助于提高性能对于模型表现的原因尚不清楚。原创 2024-01-16 11:44:17 · 446 阅读 · 0 评论 -
大模型实战05——LMDeploy大模型量化部署实践
笔记课程视频地址:https://www.bilibili.com/video/BV1iW4y1A77P/?原创 2024-01-14 21:39:18 · 542 阅读 · 0 评论 -
大模型学习读书笔记01——大模型基础
评判由一些单词排列组合而成的句子是否更像真正的、自然的句子。(通俗的说是否像人话)语言模型的经典定义是一种对词符(token)序列的概率分布。每个token在真实世界中都存在一定的概率,通过对一个句子中的所有token的联合概率来作为对一个句子优劣的评判。语言模型不仅可以评估语句,还可以依赖语言模型对已知文本或信息生成新的文本或信息。原创 2024-01-13 23:03:18 · 649 阅读 · 0 评论