
NLP基础学习笔记
文章平均质量分 96
研 0 选手的 NLP 学习笔记,将于2023年毕业。
一支王同学
Wang Linyong,南京邮电大学本科,计算机科学与技术;西北工业大学研究生(在读),计算机技术
;目前已做过的研究方向:文本分类(竞赛)、文本匹配(竞赛)、命名实体识别(横向)、摘要生成(主要研究方向)、大语言模型文本生成(纵向)。
座右铭:内心的热爱抵过外界的狂欢。
展开
-
LLaVA系列③——微调训练LLaVA并进行推理(附详细代码+讲解)
整体文章脉络如下:下载数据集、数据集的读取、辅助工具函数、模型的训练6 轻量数据集的微调训练、加载训练好的模型来推理。原创 2025-03-31 16:29:10 · 1476 阅读 · 1 评论 -
LLaVA系列②——从底层构建LLaVA并测试运行(附详细代码+讲解)
文章包括:LLaVA 简介、下载 LLaVA 的视觉层和语言层的模型参数、设置图像的占位符、初始化 LLaVA 模型、测试 LLaVA 模型原创 2025-03-26 10:57:18 · 1268 阅读 · 6 评论 -
LLaVA系列①——LLaVA的快速学习和简单调用(附详细代码+讲解)
一篇30分钟快速学习和使用LLaVA的教程,包含:LLaVA的简介和原理、LLaVA的模型流程图、LLaVA 的简单调用。原创 2025-03-21 22:58:16 · 1623 阅读 · 6 评论 -
使用LLama-Factory的简易教程(Llama3微调案例+详细步骤)
一套快速实现 Llama3 中文微调的教程。包括:1. 配置 Hugging Face 的国内镜像网站、2.安装 LLaMA-Factory 框架、3. 启动可视化窗口、4. 数据集构建方式、5. 模型微调的流程原创 2025-03-21 14:39:38 · 2533 阅读 · 0 评论 -
DeepSeek 系列模型:论文精读《A Survey of DeepSeek Models》
这篇文章概述了Deepseek 及其变体,包括 DeepSeek 7B、DeepSeek MoE-16B、DeepSeek V2、DeepSeek V3、DeepSeek R1-Zero 和 DeepSeek R1,还概述了相关的大语言模型,包括 OpenAI GPT、Claude 3.5、LLama 3.1、Qwen 2.5、Gemini 2.0,并将它们进行了系统的比较。原创 2025-03-04 21:29:34 · 846 阅读 · 0 评论 -
【DeepSeek部署经验】Ollama(运行平台)+DeekSeek(对话模型)+Cherry Studio(可视化对话界面)
超级简单的傻瓜式部署贴子,包括 Ollama、DeekSeek、Cherry Studio 的下载和安装,并有详细的步骤。原创 2025-02-24 20:05:25 · 939 阅读 · 0 评论 -
提升大语言模型(LLMs)阅读理解能力的经验技巧【增强数据集的方法】
该文分享了如何对中英文问答题进行数据增强的方法【数据预处理工作】,提升了LLMs的推理能力,模型使用的是Llama3-8B。原创 2025-01-16 20:22:49 · 809 阅读 · 0 评论 -
大语言模型(LLMs)数学推理的经验技巧【思维链CoT的应用方法】
该文分享了如何对数学推理运算进行思维链(CoT)的应用【数据预处理工作】,模型使用的是Llama3-8B。原创 2024-12-31 15:49:05 · 1487 阅读 · 0 评论 -
一文贯通RAG的技术介绍和构建(简易版+附详细代码)
本文主要分为以下几个部分: 1.为什么产生RAG技术?【计算资源问题、提示依赖问题、模型幻觉问题、时效性问题、数据安全问题】2. RAG技术的简要介绍【RAG是一种结合了信息检索、模型能力和文本生成的新型自然语言处理技术框架】;3. RAG技术和SFT技术的对比【RAG 在利用最新信息、提高可解释性和适应性方面具有明显优势。相比之下,微调模型(SFT)可能更适合那些对特定任务有明确优化需求】;4. RAG技术的实现流程【问题理解、信息检索和LLMs调用】;5. 代码实现。原创 2024-10-28 19:37:39 · 3368 阅读 · 1 评论 -
pyrouge(ROUGE-1.5.5)的安装步骤和使用说明(适用于Linux 系统)
摘要:本文详细讲解了如何配置和使用文本摘要的评价指标ROUGE(linux 系统)。总共八个步骤分为:检查 perl 版本、安装 XML::Parser、安装 XML::RegExp、安装 LWP::UserAgent、安装 XML::Parser::PerlSAX、安装 XML::DOM、安装 DB_File、安装并测试 ROUGE-1.5.5。原创 2024-06-10 15:41:21 · 1307 阅读 · 2 评论 -
对Transformer中的Attention(注意力机制)的一点点探索
摘要:本文试图对 Transformer 中的 Attention 机制进行一点点探索。并就 6 个问题深入展开。1. Attention 的输入是什么?输出是什么?2. Attention 中的输入(input)与 “Q、K、V” 是啥关系?3. Attention 中的 Q、K、V 分别有什么含义?4. Attention 的计算流程是怎么样的?5. 多头 Attention 有什么用?6. 请介绍一下 Cross-Attention?原创 2023-09-09 16:24:33 · 1216 阅读 · 0 评论 -
如何用pytorch做文本摘要生成任务(加载数据集、T5 模型参数、微调、保存和测试模型,以及ROUGE分数计算)
摘要:如何使用 Pytorch(或Pytorchlightning) 和 huggingface Transformers 做文本摘要生成任务,包括数据集的加载、模型的加载、模型的微调、模型的验证、模型的保存、ROUGE指标分数的计算、loss的可视化。原创 2023-03-15 21:42:06 · 9585 阅读 · 36 评论 -
NLP冻手之路(5)——中文情感分类(以BERT为基础,由Hugging Face库支持,代码实践)
关键字:NLP、情感分析、bert-base-chinese。原创 2022-10-27 16:25:43 · 4421 阅读 · 1 评论 -
NLP冻手之路(4)——pipeline管道函数的使用
关键词:pipeline简介、pipeline的使用、【pipeline简单应用于情感分类、完形填空、文本生成、命名实体识别、摘要生成、文本翻译、阅读理解】原创 2022-10-26 16:23:22 · 2015 阅读 · 0 评论 -
NLP冻手之路(3)——评价及指标函数的使用(Metric,以 BLEU和GLUE 为例)
关键字:自然语言处理、metric的使用、Hugging Face。原创 2022-10-25 16:16:00 · 4475 阅读 · 3 评论 -
NLP冻手之路(2)——文本数据集的下载与各种操作(Datasets)
关键词:中文文本数据集的下载、数据集的获取【直接调用函数获取、官网下载获取】、数据集的操作【排序与打乱、选择和过滤、切分和分桶、列的新增/删除和重命名、map 函数、保存与加载】原创 2022-10-22 11:38:58 · 7136 阅读 · 3 评论 -
NLP冻手之路(1)——中文/英文字典与分词操作(Tokenizer)
关键字:NLP、代码实战、中文分词、中文字典、Tokenizer。原创 2022-10-17 14:34:20 · 5270 阅读 · 0 评论