深度学习
文章平均质量分 73
大鹏的NLP博客
擅长自然语言处理,知识图谱,人工智能,大数据,K8S,软件工程等领域的技术及管理
展开
-
文本生成任务的评价方法BLEU 和 ROUGE
BLEU 是 2002 年提出的,而 ROUGE 是 2003 年提出的。这两种指标虽然存在着一些问题,但是仍然是比较主流的评价指标。原创 2024-04-20 20:22:05 · 1007 阅读 · 0 评论 -
gemma 大模型(gemma 2B,gemma 7B)微调及基本使用
Gemma是Google推出的一系列轻量级、最先进的开放模型,基于创建Gemini模型的相同研究和技术构建。提供了 2B 和 7B 两种不同规模的版本,每种都包含了预训练基础版本和经过指令优化的版本。所有版本均可在各类消费级硬件上运行,无需数据量化处理,拥有高达 8K tokens 的处理能力:它们是文本到文本的、仅解码器的大型语言模型,提供英语版本,具有开放的权重、预训练的变体和指令调优的变体。Gemma模型非常适合执行各种文本生成任务,包括问答、摘要和推理。原创 2024-03-28 21:41:31 · 2650 阅读 · 0 评论 -
Transformers 直观解释——不仅是如何工作,而且为什么工作得这么好
查询Q和键K之间的点积计算每对单词之间的相关性。然后将该相关性用作“因子”来计算所有值V的加权和。该加权和作为注意力分数输出。Transformer 学习嵌入等,从而使彼此相关的单词更加对齐。这是引入三个线性层并为查询、键和值创建三个版本的输入序列的原因之一。这为注意力模块提供了更多参数,它可以学习这些参数来调整词向量的创建。原创 2024-03-27 22:36:02 · 704 阅读 · 0 评论 -
机器学习工具
通过完全托管的基础设施、工具和工作流程为任何用例构建、训练和部署机器学习 (ML) 模型。https://aws.amazon.com/cn/sagemaker/ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!我们希望在汇集行业领先的预训练模型,减少开发者的重复研发成本,提供更加绿色环保、开源开放的AI开发环境和模型服务,助力绿色“数字经济”事业的建设。 ModelScope平台将以开源的方式提供多类优质模型,开发者原创 2022-12-07 16:34:26 · 100 阅读 · 0 评论 -
Self -Attention、Multi-Head Attention、Cross-Attention
Self -Attention是一端的注意力机制。Cross-Attention是两端的注意力机制,然后合起来。原创 2022-11-24 10:31:23 · 28988 阅读 · 7 评论 -
长短期记忆网络(LSTMs)介绍
长短期记忆网络(LSTMs)介绍1:传统RNN的缺点,LSTM结构解析,LSTM变体简介转载 2022-11-14 18:43:49 · 122 阅读 · 0 评论