大模型
文章平均质量分 91
无盐薯片
这个作者很懒,什么都没留下…
展开
-
大语言模型--数据
另外,来自patents.google.com的一些文本是自动生成的,因此可能存在系统性的错误:例如,用外国的官方语言(如日语)提交的专利将自动翻译成英语;也就是说,虽然OpenWebText并非OpenAI直接发布的WebText的副本,但它遵循了WebText的制作思路和方法,目的是尽可能地模拟和复现WebText的数据特性和结构。OpenWebText从Reddit提交的数据集中提取所有URL,使用Facebook的fastText过滤掉非英语内容,删除近乎重复的内容,最终得到了38GB的文本。原创 2023-12-15 16:00:51 · 1311 阅读 · 0 评论 -
大语言模型--危害
在本次内容中,我们将讨论另外两种行为伤害:有毒性和虚假信息(毒性和虚假信息)大型语言模型可能会产生攻击性、有害的内容,或者产生虚假性的内容。然而,在我们的研究中前面的讨论,需要指出的是,语言模型与伤害这些之间存在一个断裂。语言模型处理的文本是,这是它们接受训练的数据,并且善于捕捉伤害统计模式。然而,这些涉及的是人,这意味着我们需要将这些伤害视为文本的属性,而不是需要从更广泛的社会语境中考虑。原创 2023-12-14 16:04:54 · 1477 阅读 · 0 评论 -
大语言模型--能力
增加模型的大小和示例的数量都有助于提高性能。有一些启发式的方法可以使语言模型适应感兴趣的任务。但为什么会有这样的表现,没有人知道。原创 2023-12-13 21:19:50 · 1257 阅读 · 0 评论 -
大语言模型--引言
语言模型(LM)的经典定义是一种对令牌序列(token)的概率分布。假设我们有一个令牌集的令牌表。的次方,概率分布可能不会加到1。自回归语言模型的特点是它可以利用例如前馈神经网络等方法有效计算出每个条件概率分布。T=∞:然而,从整个表上的均匀分布中采样,如果我们仅仅将概率提高到。观察上,一个好的语言模型应具有语言能力和世界知识。T=0:确定性地在每个位置我选择最可能的代币。T=1:从纯语言模型“正常(正常)”采样。温度可以用来控制生成中的变异量。语言模型每个为令牌序列。称为放大器条件概率分布。原创 2023-12-12 15:55:26 · 925 阅读 · 0 评论