HuggingFace自然语言处理详解
文章平均质量分 78
《HuggingFace自然语言处理详解:基于BERT中文模型的任务实战》读书笔记。
NLP工程化
NLP工程师
展开
-
手动实现BERT
本文重点介绍了如何从零训练一个BERT模型的过程,包括整体上BERT模型架构、数据集如何做预处理、MASK替换策略、训练模型和保存、加载模型和测试等。原创 2023-09-29 23:19:41 · 1076 阅读 · 0 评论 -
手动实现Transformer
Transformer和BERT可谓是LLM的基础模型,彻底搞懂极其必要。Transformer最初设想是作为文本翻译模型使用的,而BERT模型构建使用了Transformer的部分组件,如果理解了Transformer,则能很轻松地理解BERT。原创 2023-09-29 23:18:14 · 303 阅读 · 0 评论 -
使用自动模型
本文通过文本分类任务演示了HuggingFace自动模型使用方法,既不需要手动计算loss,也不需要手动定义下游任务模型,通过阅读自动模型实现源码,提高NLP建模能力。原创 2023-09-03 22:30:13 · 124 阅读 · 0 评论 -
中文命名实体识别
本文通过people_daily_ner数据集,介绍两段式训练过程,第一阶段是训练下游任务模型,第二阶段是联合训练下游任务模型和预训练模型,来实现中文命名实体识别任务。原创 2023-09-03 12:31:30 · 5002 阅读 · 1 评论 -
什么是HuggingFace
HuggingFace是一个高速发展的社区,包括Meta、Google、Microsoft、Amazon在内的超过5000家组织机构在为HuggingFace开源社区贡献代码、数据集和模型。目前包括模型236,291个,数据集44,810个。刚开始大多数的模型和数据集是NLP方向的,但图像和语音的功能模型正在快速更新中。原创 2023-06-25 15:13:29 · 1869 阅读 · 0 评论 -
使用编码工具
本文主要介绍了对句子编码的过程,以及如何使用PyTorch中自带的编码工具,包括基本编码encode()、增强编码encode_plus()和批量编码batch_encode_plus()。原创 2023-06-25 15:24:01 · 951 阅读 · 0 评论 -
使用数据集工具
HuggingFace通过API提供了统一的数据集处理工具。原创 2023-06-27 18:37:31 · 656 阅读 · 0 评论 -
使用评价指标工具
评估一个训练好的模型需要评估指标,比如正确率、查准率、查全率、F1值等。当然不同的任务类型有着不同的评估指标,而HuggingFace提供了统一的评价指标工具。原创 2023-06-27 23:13:36 · 332 阅读 · 0 评论 -
使用管道工具
HuggingFace本身就是一个模型库,包括了很多经典的模型,比如文本分类、阅读理解、完形填空、文本生成、命名实体识别、文本摘要、翻译等,这些模型即使不进行任何训练也能直接得出比较好的预测结果。pipeline是HuggingFace提供的一个非常实用的工具,但是封装程度太高,需要看源码才能理解其中的处理过程。原创 2023-08-26 00:55:16 · 429 阅读 · 0 评论 -
使用训练工具
HuggingFace上提供了很多已经训练好的模型库,如果想针对特定数据集优化,那么就需要二次训练模型,并且HuggingFace也提供了训练工具。原创 2023-08-26 00:57:21 · 436 阅读 · 0 评论 -
中文情感分类
本文通过ChnSentiCorp数据集介绍了文本分类任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。原创 2023-08-29 21:40:17 · 622 阅读 · 4 评论 -
中文完形填空
本文通过ChnSentiCorp数据集介绍了完型填空任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。原创 2023-09-01 21:51:23 · 593 阅读 · 0 评论 -
中文句子关系推断
本文通过ChnSentiCorp数据集介绍了中文句子关系推断任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。原创 2023-09-01 21:52:39 · 342 阅读 · 0 评论