自然语言处理
文章平均质量分 95
龙心尘
资深深度学习研发工程师,多年深度学习自然语言处理、推荐算法经验,ERNIE系列项目开发者之一,知名AI类公众号深度学习专栏主编。专注于算法研发与优化,负责过基于海量数据的文本相似度、长句预测、文本审核、评论观点抽取、个性化推荐、智能营销、智能画像等项目。欢迎联系和交流。
展开
-
【视频】超越BERT的最强中文NLP预训练模型艾尼ERNIE官方揭秘
分章节视频链接:http://abcxueyuan.cloud.baidu.com/#/course_detail?id=15076&courseId=15076完整视频链接:http://play.itdks.com/watch/8591895艾尼(ERNIE)是目前NLP领域的最强中文预训练模型。百度资深研发工程师龙老师,通过直播带开发者走近最强中文NLP预训练模型ERNI...原创 2019-10-18 09:04:19 · 2102 阅读 · 0 评论 -
【视频】技术分享:PaddleNLP工业级开源工具集介绍与核心技术剖析(百度AI开发者大会)
PaddleNLP是飞桨开源的产业级NLP工具与预训练模型集,提供了依托于百度实际产品打磨,通过百亿级大数据训练的预训练模型,能够极大地方便 NLP 研究者和工程师快速应用。使用者可以用PaddleNLP 快速实现文本分类、词法分析、相似度计算、语言模型、文本生成、阅读理解和问答、对话系统以及语义表示8大类任务,并且可以直接使用百度开源工业级预训练模型进行快速应用。用户在极大地减少研究和开发成本...原创 2019-10-08 20:19:54 · 1104 阅读 · 0 评论 -
图解Word2vec
作者: 龙心尘时间:2019年4月出处:https://blog.csdn.net/longxinchen_ml/article/details/89077048审校:龙心尘作者:Jay Alammar编译:张秋玥、毅航、高延嵌入(embedding)是机器学习中最迷人的想法之一。 如果你曾经使用Siri、Google Assistant、Alexa、Google翻译,甚至智能手机键...原创 2019-04-08 08:58:57 · 9798 阅读 · 4 评论 -
深入理解BERT Transformer ,不仅仅是注意力机制
作者: 龙心尘时间:2019年3月出处:https://blog.csdn.net/longxinchen_ml/article/details/89058309大数据文摘与百度NLP联合出品作者:Damien Sileo审校:百度NLP、龙心尘编译:张驰、毅航为什么BERT模型这么重要BERT是google最近提出的一个自然语言处理模型,它在许多任务检测上表现非常好。如:问答、自...原创 2019-04-06 17:47:51 · 3853 阅读 · 1 评论 -
用可视化解构BERT,我们从上亿参数中提取出了6种直观模式
作者: 龙心尘时间:2019年1月出处:https://blog.csdn.net/longxinchen_ml/article/details/89036531大数据文摘联合百度NLP出品审校:百度NLP、龙心尘编译:Andy,张驰来源:towardsdatascience.comhttps://blog.csdn.net/longxinchen_ml/article/detail...原创 2019-04-04 22:51:19 · 1945 阅读 · 0 评论 -
图解Transformer(完整版)
审校:百度NLP、龙心尘翻译:张驰、毅航、Conrad原作者:Jay Alammar原链接:https://jalammar.github.io/illustrated-transformer/编者按:前一段时间谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型...原创 2019-01-17 23:45:25 · 405255 阅读 · 124 评论 -
NLP系列(6)_从NLP反作弊技术看马蜂窝注水事件
按:本文基于网易云课堂公开课分享内容整理补充完成。感谢志愿者july同学的贡献。10月21日,朋友圈被一篇名为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章刷屏。文章作者小声比比指控在线旅游网站马蜂窝存在点评大量造假的情况,包括从其他网站如大众点评、携程等抓取相关点评,及通过水军撰写虚拟点评。文章吸引了包括本人在内的大量吃瓜群众的眼球。毕竟一家估值175亿的互联网公司被这么多...原创 2018-11-18 21:50:10 · 1533 阅读 · 2 评论 -
NLP系列(2)_用朴素贝叶斯进行文本分类(上)
贝叶斯方法非常强大,有着坚实的理论基础。很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 贝叶斯公式贝叶斯公式就一行:P(Y|X)=P(X|Y)P(Y)P(X)P(Y|X)原创 2016-02-03 15:16:31 · 44202 阅读 · 17 评论 -
NLP系列(4)_朴素贝叶斯实战与进阶
前两篇博文介绍了朴素贝叶斯这个名字读着"萌蠢"但实际上简单直接高效的方法,我们也介绍了一下贝叶斯方法的一些细节。按照老规矩,『锄头』给你了,得负责教教怎么用和注意事项,也顺便带大家去除除草对吧。恩,此节作为更贴近实际应用的部分,将介绍贝叶斯方法的优缺点、常见适用场景和可优化点,然后找点实际场景撸点例子练练手,看看工具怎么用。原创 2016-02-03 15:10:21 · 20932 阅读 · 4 评论 -
NLP系列(3)_用朴素贝叶斯进行文本分类(下)
上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks,并进一步分析贝叶斯方法,最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。原创 2016-02-03 14:57:53 · 16485 阅读 · 2 评论 -
NLP系列(5)_从朴素贝叶斯到N-gram语言模型
我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过,朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-gram语言模型。原创 2016-02-09 11:35:12 · 25380 阅读 · 2 评论 -
NLP系列(1)_从破译外星人文字浅谈自然语言处理基础
本文主要是讲了一些自然语言处理的浅层内容。知识点比较零碎,可见业务场景之繁杂。我们希望从机器学习算法的角度去观察这些业务场景,以便有个清晰的认识。文本处理的一些基础内容,如正则表达式、分词断句等是自然语言预处理过程中的常用手段。编辑距离是衡量两个字符串相似性的尺度。原创 2016-01-19 16:30:11 · 10893 阅读 · 10 评论