![](https://img-blog.csdnimg.cn/20190927151053287.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言处理NLP
文章平均质量分 96
自然语言处理
不雨_亦潇潇
流水不腐,户枢不蠹
展开
-
【大模型】大语言模型前沿技术系列讲座-学习笔记2:Transformer ->ChatGPT
可以简单理解为加权平均输入长度为N的词向量序列,在每个位置上对N个词向量做加权平均 (做N次),最终得到N个输出向量,每做一次加权平均,可视为对输入做了一次AttentionSelf-Attention 中,加权平均用的权重 (系数)ωijωij如何确定?ωij′xi⋅xjωij′xi⋅xj用自己的输入做点乘,作为权重(Self 的概念)Query(下图中每个位置左边的x2x_2x2)、Key。原创 2023-09-06 15:18:30 · 289 阅读 · 1 评论 -
【大模型】大语言模型前沿技术系列讲座-学习笔记1:人工智能发展史
通过自监督学习在大量无标签数据上进行预训练,训练目标为最大化下一个单词出现的概率;通过增大模型的参数量和训练数据量来提升基础模型的基本能力;融入代码数据进行预训练提升基础模型的推理能力;通过指令微调让基础模型与用户的需求对齐;基于人类反馈的强化学习(RLHF)则进一步让模型生成更加安全可靠的内容;大模型已经具备一定程度的智能。原创 2023-08-28 00:10:00 · 373 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day10打卡:微调ChatGLM2-6B
🚩【NLP】Datawhale-AI夏令营Day5打卡:预训练模型第五天继续尝试理解预训练模型相关知识,并跑通深度学习方法Topline。🚩【NLP】Datawhale-AI夏令营Day6-7打卡:大模型第六天和第七天学习了大模型的概念,大模型的训练步骤(大尺寸预训练+指令微调+RLHF),Prompt 的概念,以及大模型微调的概念。🚩【NLP】Datawhale-AI夏令营Day8-10打卡:大模型基础Transformer第八、第九和第十天复盘了大模型的基础,在精读论文的基础上理解T原创 2023-08-26 00:12:27 · 152 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day8-10打卡:大模型基础Transformer
在编码器(encoder)和解码器(decoder)之间一般采用CNN或者RNN,而本研究提出了一种简单的仅仅基于注意力机制的架构——Transformer,主要用于机器翻译上面。Transformer是一种完全基于注意力的序列转录模型,它用 多头自注意力(multi-headed self-attention) 取代了编码器-解码器架构中最常用的循环层。Transformer, a sequence transduction model based entirely onattention, repl原创 2023-08-23 23:57:15 · 297 阅读 · 1 评论 -
【NLP】Datawhale-AI夏令营Day6-7打卡:大模型
大语言模型的语言生成的原理叫做自回归模型,是统计上一种处理时间序列的方法。自回归模型的关键是根据你前面已经出现过的内容,来推测它的下一个字,下一句话应该是怎样生成的,在这样不断的迭代过程中,它就能学会如何去生成一句话、一个段落,以及一篇文章。总的来说,LLM可以理解为大规模的语言模型。从历史的角度来看,前面说的BERT和GPT并没有达到足够大的规模。直到GPT-2、GPT-3出现了,它们才达到了较大的量级。我们一般理解LLMs,语言模型规模大到了至少到GPT-1或2阶段,它的参数量能够突破1亿或者1原创 2023-08-22 17:32:05 · 245 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day5打卡:预训练模型
Topline方法:预训练微调+特征融合+后处理Topline 所使用到的预训练模型为Bert的改进版——Roberta-base。它与Bert的区别在于:① Roberta在预训练的阶段中没有对下一句话进行预测(NSP)② 采用了动态掩码③ 使用字符级和词级别表征的混合文本编码原创 2023-08-21 00:01:28 · 126 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
🚩【NLP】Datawhale-AI夏令营Day1打卡:文本特征提取第一天学习了Python 数据分析相关的库(pandas和sklearn),文本特征提取的方法(基于TF-IDF提取和基于BOW提取,以及停用词的用法),划分数据集的方法,以及机器学习的模型,并尝试跑通了机器学习方法baseline。🚩【NLP】Datawhale-AI夏令营Day2打卡:数据分析第二天学习了数据探索、数据清洗、特征工程、模型训练与验证部分。🚩【NLP】Datawhale-AI夏令营Day3打卡:Bert模原创 2023-08-19 23:55:11 · 200 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day3打卡:Bert模型
预训练+微调范式一定程度上缓解了标注数据昂贵的问题,显著提升了模型性能,但是,ELMo 使用的双向 LSTM 架构存在难以解决长期依赖、并行效果差的天生缺陷,ELMo 本身也保留了词向量作为特征输入的应用,并没能一锤定音地敲定预训练+微调范式的主流地位。2017年,Transformer 模型的提出,为自然语言处理领域带来了一个新的重要成员——Attention 架构。基于 Attention 架构,同样在2018年,OpenAI 提出的 GPT 模型基于 Transformer 模型,结合 ELMo 模型原创 2023-08-18 22:49:08 · 245 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day2打卡:数据分析
1. 学习内容AI夏令营第三期–基于论文摘要的文本分类与关键词抽取挑战赛教程1.1 数据探索数据探索性分析,是通过了解数据集,了解变量间的相互关系以及变量与预测值之间的关系,对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,从而帮助我们后期更好地进行特征工程和建立模型,是机器学习中十分重要的一步。本次实践中我们使用 pandas 来读取数据以及数据探索。✅ 使用pandas读取数据我们利用 pd.read_csv() 方法对赛题原创 2023-08-17 20:27:42 · 250 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day1打卡:文本特征提取
⭐️ 最近参加了由Datawhale主办、联合科大讯飞、阿里云天池发起的 AI夏令营(第三期),我参与了深度学习实践-NLP(自然语言处理)方向 😄⭐️ 作为NLP小白,我希望能通过本次夏令营的学习实践,对NLP有初步的了解,学习大模型,动手完成NLP项目内容,同时通过社区交流学习,提升调参优化等能力⭐️ 今天是打卡的第一天! ✊✊✊⭐️ 按照日程安排,8月16日-18日主要学习机器学习方法,完成任务一。⭐️ 今天我主要学习了 Python 数据分析相关的库,文本特征提取的方法,划分数据集的方法,原创 2023-08-16 23:59:18 · 292 阅读 · 0 评论