大模型
文章平均质量分 95
关注大模型的现状,发展。
大鹏的NLP博客
擅长自然语言处理,知识图谱,人工智能,大数据,K8S,软件工程等领域的技术及管理
展开
-
gemma 大模型(gemma 2B,gemma 7B)微调及基本使用
Gemma是Google推出的一系列轻量级、最先进的开放模型,基于创建Gemini模型的相同研究和技术构建。提供了 2B 和 7B 两种不同规模的版本,每种都包含了预训练基础版本和经过指令优化的版本。所有版本均可在各类消费级硬件上运行,无需数据量化处理,拥有高达 8K tokens 的处理能力:它们是文本到文本的、仅解码器的大型语言模型,提供英语版本,具有开放的权重、预训练的变体和指令调优的变体。Gemma模型非常适合执行各种文本生成任务,包括问答、摘要和推理。原创 2024-03-28 21:41:31 · 6109 阅读 · 5 评论 -
NLP中 大语言模型LLM中的思维链 Chain-of-Thought(CoT) GoT
在过去几年的探索中,业界发现了一个现象,在增大模型参数量和训练数据的同时,在多数任务上,模型的表现会越来越好。因而,现有的大模型LLM,最大参数量已经超过了千亿。然而,增大模型参数规模,对于一些具有挑战的任务(例如算术、常识推理和符号推理)的效果,并没有太大提升。对于算术类推理任务,我们期望模型生成自然语言逻辑依据来指导并生成最终答案,但是获得逻辑依据是比较复杂昂贵的(标注成本层面)。原创 2023-11-24 22:19:47 · 3544 阅读 · 0 评论 -
文本生成任务的评价方法BLEU 和 ROUGE、BERTScore
BLEU 是 2002 年提出的,而 ROUGE 是 2003 年提出的。这两种指标虽然存在着一些问题,但是仍然是比较主流的评价指标。原创 2024-04-20 20:22:05 · 1687 阅读 · 0 评论