NLP_secsilm的博客-CSDN博客

NLP

关注

文章平均质量分 78

关注数：文章数：4 文章阅读量：10621 文章收藏量：40

作者: secsilm

NLP 和 Python 开发者，正在学习 C++。GitHub：github.com/secsilm，知乎：zhihu.com/people/lyjwf1216

展开

C4 数据集基本信息速览

带你速览用于训练T5 等大规模语言模型的 C4 数据集的基本信息。

原创 2022-09-08 22:05:30 · 4040 阅读 · 0 评论
TensorBoard Projector 简易指南

原文发表在 TensorBoard Projector 简易指南 - Alan Lee。TensorBoard（TB）是一个非常棒的模型可视化工具，早期我也写过一篇文章来详细介绍各个面板。不过士别三日，当刮目相待。现在的 TB 和那时相比变化太多了，增加了许多功能面板，绝大部分我都还没怎么用过。其中最吸引我的面板之一就是 Projector，虽然我现在工作中并不怎么用到。现在终于抽出时间，来完整体验并写一篇 TensorBoard Projector（TBP）的简易教程。本文将会从原始文本出发（.

原创 2022-01-09 15:38:06 · 1992 阅读 · 0 评论
使用 Transformers 在你自己的数据集上训练文本分类模型

最近实在是有点忙，没啥时间写博客了。趁着周末水一文，把最近用 huggingface transformers 训练文本分类模型时遇到的一个小问题说下。背景之前只闻 transformers 超厉害超好用，但是没有实际用过。之前涉及到 bert 类模型都是直接手写或是在别人的基础上修改。但这次由于某些原因，需要快速训练一个简单的文本分类模型。其实这种场景应该挺多的，例如简单的 POC 或是临时测试某些模型。我的需求很简单：用我们自己的数据集，快速训练一个文本分类模型，验证想法。我觉得如此简单的一个需

原创 2021-11-13 08:00:00 · 3157 阅读 · 5 评论
Lemmatization VS Stemming

简单来说，两者都是对词的归一化，但 Stemming（中文一般译为词干提取，以下简称 stem）更为简单、快速一些，通常会使用一种启发式方法去掉一个词的结尾。 Lemmatization（中文一般译为词形还原，以下简称 lemma）更为「智能」一些，上下文相关，有一个 vocab，不在其中的词不会被处理：Returns the input word unchanged if it cannot be found in WordNet. —— nltk.stem.wordnet — NLTK 3.5 d

原创 2021-03-08 16:28:53 · 1435 阅读 · 0 评论

NLP

作者: secsilm

C4 数据集基本信息速览

TensorBoard Projector 简易指南

使用 Transformers 在你自己的数据集上训练文本分类模型

Lemmatization VS Stemming