文本分类
数据拾光者
热爱技术,更热爱生活的90后大叔。希望深耕于广告行业,和更多的小伙伴们一起分享大数据和人工智能技术。
展开
-
广告行业中那些趣事系列8:详解BERT中分类器源码
最新最全的文章请关注我的微信公众号:数据拾光者。 摘要:BERT是近几年NLP领域中具有里程碑意义的存在。因为效果好和应用范围广所以被广泛应用于科学研究和工程项目中。广告系列中前几篇文章有从理论的方面讲过BERT的原理,也有从实战的方面讲过使用BERT构建分类模型。本篇从源码的角度从整体到局部分析BERT模型中分类器部分的源码。 目录 01 整体模块划分 02 数据处理模块 03 特征处理...原创 2020-04-07 20:24:59 · 541 阅读 · 0 评论 -
广告行业中那些趣事系列7:实战腾讯开源的文本分类项目NeuralClassifier
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。 摘要:本篇主要分享腾讯开源的文本分类项目NeuralClassifier。虽然实际项目中使用BERT进行文本分类,但是在不同的场景下我们可能还需要使用其他的文本分类算法,比如TextCNN、RCNN等等。通过NeuralClassifier开源项目我们可以方便快捷的使用这些模型。本篇并不会重点剖析某个算法,而是从整体的角度使用Neur...原创 2020-03-22 10:48:41 · 1150 阅读 · 5 评论 -
广告行业中那些趣事系列6:BERT线上化ALBERT优化原理及项目实践(附github)
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。 摘要:BERT因为效果好和适用范围广两大优点,所以在NLP领域具有里程碑意义。实际项目中主要使用BERT来做文本分类任务,其实就是给文本打标签。因为原生态BERT预训练模型动辄几百兆甚至上千兆的大小,模型训练速度非常慢,对于BERT模型线上化非常不友好。本篇研究目前比较火的BERT最新派生产品ALBERT来完成BERT线上化服务。AL...原创 2020-03-08 18:37:37 · 724 阅读 · 0 评论 -
广告行业中那些趣事系列5:BERT实战多标签标注模型(附github源码)
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。 摘要:之前广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码),我们通过BERT构建了二分类器。这里根据实际项目需要使用BERT构建多标签标注模型,可通过一个模型识别多类标签,极大提升建模效率。实际项目中会根据业务需要同时使用二分类器和多标签标注模型完成文本识别任务。 通过本篇学习,小伙伴们可以使用BERT...原创 2020-02-24 10:58:01 · 824 阅读 · 0 评论 -
广告行业中那些趣事系列3:NLP中的巨星BERT
摘要:上一篇广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码)通过项目实战讲解了如何使用BERT模型来完成文本分类任务。本篇则从理论的角度讲解BERT模型的前世今生。BERT虽然在模型创新的角度来说并不是非常出色,但它是近几年NLP领域杰出成果的集大成者。BERT大火最重要的原因是效果好,通用性强两大优点。可以说BERT的出现是NLP领域里具有里程碑意义的大事件。本篇主...原创 2020-02-10 09:43:21 · 467 阅读 · 0 评论 -
广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码)
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。 摘要:上一篇广告中那些趣事系列1:广告统一兴趣建模流程,我们了解了如何为广告主圈人群以及如何刻画用户的兴趣度。要想给用户打标签,我们需要构建数据源和标签的关联,也就是item-tag。针对数量较少的app数据源我们可以使用人工打标的方式来识别,但是对于news、用户query等数量较多的数据源则需要通过机器学习模型来进行打标。实际项...原创 2020-02-07 22:47:22 · 998 阅读 · 0 评论