nlp
文章平均质量分 92
cptu
这个作者很懒,什么都没留下…
展开
-
机器翻译(一):BLEU(bilingual evaluation understudy)
简介BLEU(bilingual evaluation understudy)是一种评价翻译质量的指标,该评价指标重点关注 相同文本下,机器与人翻译结果的近似程度即机器译文与参考译文的相似程度。原创 2017-10-18 23:04:16 · 4011 阅读 · 0 评论 -
fastText入门
简介fastText是Facebook AI Research在2016年提出的文本分类和词训练的工具。它最大的特点:模型非常简单,训练速度快,并且能够达到与深度学习旗鼓相当的精度。最近在做一个给微博内容分类的项目,主要目的是给微博打上商业标签。这个项目是一个经典的多分类任务,传统的方法包括:SVM、TextCNN、LSTM等。上面这些方法都略有尝试,而大名鼎鼎的fastText一直没有尝...原创 2018-08-21 14:54:54 · 1392 阅读 · 0 评论 -
fastText(二):微博短文本下fastText的应用(一)
众所周知,微博中的内容以短文本居多,文本内容随意性极强,这给建模增加了很大的难度。针对这一问题,这里分享一下fastText在微博短文本的应用。任务目标简单介绍一下整个任务的目标:给微博内容打上标签,例如美妆、宠物用品等。这类问题可以转化为经典的多分类问题。然而微博内容较短,并且文字随意性极强,这给整个建模任务增加了难度。考虑到文本分类是一类偏线性的问题,本次建模使用了fastText...原创 2018-08-21 15:05:13 · 4168 阅读 · 17 评论 -
fastText(三):微博短文本下fastText的应用(二)
上一篇讲到,fastText在训练数据中过拟合的问题。接下来将介绍一些提高fastText泛化能力的尝试。模型泛化使用过fastText的人,往往会被它的很多特性征服,例如训练速度、兼具word embedding和分类等。但是正如一个硬币有正反两面,fastText也并非完美,fastText的泛化性是它的短板。增加正则项在Logistic Regression中,调节正...原创 2018-08-21 15:09:08 · 3074 阅读 · 6 评论 -
AUC(一):AUC与Mann–Whitney U test
在算法面试中,常常会被一个问题AUC的物理含义是什么。本文参考论文1,介绍一下AUC的物理含义。概念在二分类模型中,预测值ppp表示事件发生的概率。对于分类任务,需要给出一个阈值(threshold)来判别哪些任务是正例、哪些是负例。AUC(Area Under the Curve)提供了一种判别所有阈值效果的指标。AUC的计算逻辑如下所示:将模型预测值排序对于每一个阈值计算TPR(Tr...原创 2019-04-19 12:20:46 · 6668 阅读 · 3 评论