NLP
文章平均质量分 51
hema12138
这个作者很懒,什么都没留下…
展开
-
WordPiece和SentencePiece区别
BERT(Bidirectional Encoder Representations from Transformers)模型的分词器通常使用子词级别的分词方法,其中最常用的分词器包括 WordPiece 和 SentencePiece。这些分词器用于将文本分成子词(subwords)或标记(tokens),以满足BERT的输入要求。原创 2024-01-13 15:49:52 · 748 阅读 · 0 评论 -
聚类模型评估指标
聚类模型评估指标-轮廓系数。原创 2024-01-13 15:47:14 · 965 阅读 · 0 评论 -
文本分类的一些记录
其中文本分类是自然语言处理中最基础的任务,指的是将文本打上特定的类别标签,以做区分和筛选。文本分类主要流程一般是:先预处理文本,再提取特征,最后通过特征进行分类,或者直接采用深度学习的模型对处理好的文本进行分类。Weighted Average 与 Macro Average 类似,但在计算总体精确度和召回率时,它考虑了每个类别的权重,这个权重通常是类别的样本数量。这意味着 Micro Average 将所有类别视为一个大类别,所有的真阳性、假阳性和假阴性都汇总在一起,然后计算总体的精确度和召回率。原创 2024-01-13 15:29:30 · 1285 阅读 · 0 评论