自然语言处理
文章平均质量分 92
数据拾光者
热爱技术,更热爱生活的90后大叔。希望深耕于广告行业,和更多的小伙伴们一起分享大数据和人工智能技术。
展开
-
广告行业中那些趣事系列57:从理论到实战一网打尽Transformer中的位置编码
导读:本文是“数据拾光者”专栏的第五十七篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇从理论到实践介绍了Transformer中的位置编码,包括训练式位置编码、三角函数式位置编码和相对位置编码,同时基于开源项目bert4keras源码实践了各种位置编码。欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。知乎专栏:数据拾光者公众号:数据拾光者...原创 2022-09-06 21:26:11 · 2899 阅读 · 0 评论 -
广告行业中那些趣事系列10:推荐系统中不得不说的DSSM双塔模型
本篇一共4189个字最新最全的文章请关注我的微信公众号:数据拾光者。摘要:本篇主要介绍了项目中用于商业兴趣建模的DSSM双塔模型。作为推荐领域中大火的双塔模型,因为效果...原创 2020-05-11 10:05:41 · 3355 阅读 · 0 评论 -
广告行业中那些趣事系列9:一网打尽Youtube深度学习推荐系统
最新最全的文章请关注我的微信公众号:数据拾光者。摘要:本篇主要分析Youtube深度学习推荐系统,借鉴模型框架以及工程中优秀的解决方案从而应用于实际项目。首先讲了下用户、广告主和抖音这一类视频平台三者之间的关系:就是平台将视频资源作为商品免费卖给用户,同时将用户作为商品有偿卖给广告主,仅此而已。平台想获取更高的收益就必须提升广告的转化效率,而前提是吸引用户增加观看视频的时长,这里就涉及到视频...原创 2020-04-17 18:29:16 · 1033 阅读 · 0 评论 -
广告行业中那些趣事系列8:详解BERT中分类器源码
最新最全的文章请关注我的微信公众号:数据拾光者。摘要:BERT是近几年NLP领域中具有里程碑意义的存在。因为效果好和应用范围广所以被广泛应用于科学研究和工程项目中。广告系列中前几篇文章有从理论的方面讲过BERT的原理,也有从实战的方面讲过使用BERT构建分类模型。本篇从源码的角度从整体到局部分析BERT模型中分类器部分的源码。目录01 整体模块划分02 数据处理模块03 特征处理...原创 2020-04-07 20:24:59 · 541 阅读 · 0 评论 -
广告行业中那些趣事系列7:实战腾讯开源的文本分类项目NeuralClassifier
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。摘要:本篇主要分享腾讯开源的文本分类项目NeuralClassifier。虽然实际项目中使用BERT进行文本分类,但是在不同的场景下我们可能还需要使用其他的文本分类算法,比如TextCNN、RCNN等等。通过NeuralClassifier开源项目我们可以方便快捷的使用这些模型。本篇并不会重点剖析某个算法,而是从整体的角度使用Neur...原创 2020-03-22 10:48:41 · 1150 阅读 · 5 评论 -
广告行业中那些趣事系列6:BERT线上化ALBERT优化原理及项目实践(附github)
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。摘要:BERT因为效果好和适用范围广两大优点,所以在NLP领域具有里程碑意义。实际项目中主要使用BERT来做文本分类任务,其实就是给文本打标签。因为原生态BERT预训练模型动辄几百兆甚至上千兆的大小,模型训练速度非常慢,对于BERT模型线上化非常不友好。本篇研究目前比较火的BERT最新派生产品ALBERT来完成BERT线上化服务。AL...原创 2020-03-08 18:37:37 · 724 阅读 · 0 评论 -
广告行业中那些趣事系列5:BERT实战多标签标注模型(附github源码)
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。摘要:之前广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码),我们通过BERT构建了二分类器。这里根据实际项目需要使用BERT构建多标签标注模型,可通过一个模型识别多类标签,极大提升建模效率。实际项目中会根据业务需要同时使用二分类器和多标签标注模型完成文本识别任务。通过本篇学习,小伙伴们可以使用BERT...原创 2020-02-24 10:58:01 · 824 阅读 · 0 评论 -
广告行业中那些趣事系列4:详解从配角到C位出道的Transformer
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。摘要:上一篇广告行业中那些趣事系列3:NLP中的巨星BERT,从理论的角度讲了下NLP中有里程碑意义的BERT模型。BERT具有效果好和通用性强两大优点,其中效果好最主要的原因就是使用了Transformer作为特征抽取器。本篇主要详解下这个从配角到C位出道的Transformer,主要从宏观和微观的角度分析Transformer,讲...原创 2020-02-12 10:57:46 · 624 阅读 · 0 评论 -
广告行业中那些趣事系列3:NLP中的巨星BERT
摘要:上一篇广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码)通过项目实战讲解了如何使用BERT模型来完成文本分类任务。本篇则从理论的角度讲解BERT模型的前世今生。BERT虽然在模型创新的角度来说并不是非常出色,但它是近几年NLP领域杰出成果的集大成者。BERT大火最重要的原因是效果好,通用性强两大优点。可以说BERT的出现是NLP领域里具有里程碑意义的大事件。本篇主...原创 2020-02-10 09:43:21 · 467 阅读 · 0 评论 -
广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码)
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。摘要:上一篇广告中那些趣事系列1:广告统一兴趣建模流程,我们了解了如何为广告主圈人群以及如何刻画用户的兴趣度。要想给用户打标签,我们需要构建数据源和标签的关联,也就是item-tag。针对数量较少的app数据源我们可以使用人工打标的方式来识别,但是对于news、用户query等数量较多的数据源则需要通过机器学习模型来进行打标。实际项...原创 2020-02-07 22:47:22 · 998 阅读 · 0 评论