m0_54954332-CSDN博客

原创 Datawhale AI 夏令营 Task03学习笔记

知识局限性：大模型只能基于训练数据生成回答，而这些数据大多来自公开资源，无法包含实时性或非公开的信息。数据安全性：企业数据需要安全保护，纳入训练集可能导致数据泄露风险。大模型幻觉：由于大模型基于概率统计进行生成，有时可能输出错误信息，尤其在模型知识薄弱的领域。为解决上述问题，研究人员提出了检索增强生成（RAG）的方法。RAG通过引入外部知识，提升大模型的准确性，减少模型幻觉的出现，成为了主流的应用方案之一。

2024-08-17 21:24:01 136

原创 Datawhale AI 夏令营 Task02学习笔记

Yuan 2.0 大模型: 一种基于大规模深度学习的人工智能模型，具有自然语言处理和生成的能力。代码优化: 对代码进行重构、格式化、命名等一系列操作，以提升代码的可读性、可维护性和性能。代码结构修正: 自动修正代码结构，使C++、HTML、Java等语言的代码在视觉上更加规整，遵循各语言的最佳实践和格式化规则。可读性优化: 通过合理添加空行和对代码块进行分区，使实现相同功能的代码位于同一逻辑区域，提升代码可读性。命名优化: 根据代码规范，自动优化变量、函数、类的命名方式，使其符合行业标准和最佳实践。

2024-08-13 20:52:51 882

原创 Datawhale AI 夏令营 Task01学习笔记

大模型的核心目标是建模人类语言的内在规律，通过语言模型准确预测词序列中的下一个词或缺失的词。统计语言模型（SLM）：使用马尔可夫假设进行建模，基于 ( n )-gram 语言模型。神经语言模型（NLM）：基于神经网络，如循环神经网络（RNN），学习上下文相关的词表示，代表性工作包括 word2vec。预训练语言模型（PLM）：通过大量无标注数据预训练双向 LSTM（biLSTM）或 Transformer，并在下游任务上进行微调，代表性模型包括 ELMo、BERT 和 GPT-1/2。

2024-08-11 21:27:16 345

原创 yuan大模型开发学习 day0

**需求**：大量数据和计算资源，如 Llama-1、Llama-2 和 Llama-3 的预训练规模分别为 1T、2T 和 15T。3. **预训练语言模型（PLM）**：通过大量无标注数据预训练双向 LSTM（biLSTM）或 Transformer，并在下游任务上进行微调，代表性模型包括 ELMo、BERT 和 GPT-1/2。引入局部注意力过滤增强机制（LFA）。- **源2.0-M32**（2024年5月）：混合专家（MoE）大模型，包含32个专家，训练数据2000B Tokens。

2024-08-11 21:23:51 221

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人