NLP
文章平均质量分 78
secsilm
NLP 和 Python 开发者,正在学习 C++。GitHub:github.com/secsilm,知乎:zhihu.com/people/lyjwf1216
展开
-
C4 数据集基本信息速览
带你速览用于训练T5 等大规模语言模型的 C4 数据集的基本信息。原创 2022-09-08 22:05:30 · 4040 阅读 · 0 评论 -
TensorBoard Projector 简易指南
原文发表在 TensorBoard Projector 简易指南 - Alan Lee。TensorBoard(TB)是一个非常棒的模型可视化工具,早期我也写过一篇文章来详细介绍各个面板。不过士别三日,当刮目相待。现在的 TB 和那时相比变化太多了,增加了许多功能面板,绝大部分我都还没怎么用过。其中最吸引我的面板之一就是 Projector,虽然我现在工作中并不怎么用到。现在终于抽出时间,来完整体验并写一篇 TensorBoard Projector(TBP)的简易教程。本文将会从原始文本出发(.原创 2022-01-09 15:38:06 · 1992 阅读 · 0 评论 -
使用 Transformers 在你自己的数据集上训练文本分类模型
最近实在是有点忙,没啥时间写博客了。趁着周末水一文,把最近用 huggingface transformers 训练文本分类模型时遇到的一个小问题说下。背景之前只闻 transformers 超厉害超好用,但是没有实际用过。之前涉及到 bert 类模型都是直接手写或是在别人的基础上修改。但这次由于某些原因,需要快速训练一个简单的文本分类模型。其实这种场景应该挺多的,例如简单的 POC 或是临时测试某些模型。我的需求很简单:用我们自己的数据集,快速训练一个文本分类模型,验证想法。我觉得如此简单的一个需原创 2021-11-13 08:00:00 · 3157 阅读 · 5 评论 -
Lemmatization VS Stemming
简单来说,两者都是对词的归一化,但 Stemming(中文一般译为词干提取,以下简称 stem)更为简单、快速一些,通常会使用一种启发式方法去掉一个词的结尾。 Lemmatization(中文一般译为词形还原,以下简称 lemma)更为「智能」一些,上下文相关,有一个 vocab,不在其中的词不会被处理:Returns the input word unchanged if it cannot be found in WordNet. —— nltk.stem.wordnet — NLTK 3.5 d原创 2021-03-08 16:28:53 · 1435 阅读 · 0 评论