自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

龙心尘

专注深度学习研发与应用

原创 “ML学分计划”说明书

计划的由来 我们是一群对机器学习感兴趣的小伙伴,对于神奇的机器学习经常有“一探究竟”的冲动,却因为孤身一人学习的寂寞、亦或繁忙考试工作之余的小小拖延症,而没有持续这份对知识的渴求和热情。 由于深感类似情况的小伙伴之多,我们希望建立一个“ML学分计划”——机器学习的学习和分享计划——来帮助我们一起更...

2016-02-16 12:29:45

阅读数 5367

评论数 5

原创 【视频】超越BERT的最强中文NLP预训练模型艾尼ERNIE官方揭秘

分章节视频链接:http://abcxueyuan.cloud.baidu.com/#/course_detail?id=15076&courseId=15076 完整视频链接:http://play.itdks.com/watch/8591895 艾尼(ERNIE)是目前NLP领域的最...

2019-10-18 09:04:19

阅读数 235

评论数 0

原创 【视频】技术分享:PaddleNLP工业级开源工具集介绍与核心技术剖析(百度AI开发者大会)

PaddleNLP是飞桨开源的产业级NLP工具与预训练模型集,提供了依托于百度实际产品打磨,通过百亿级大数据训练的预训练模型,能够极大地方便 NLP 研究者和工程师快速应用。使用者可以用PaddleNLP 快速实现文本分类、词法分析、相似度计算、语言模型、文本生成、阅读理解和问答、对话系统以及语义...

2019-10-08 20:19:54

阅读数 89

评论数 0

原创 图解Word2vec

作者: 龙心尘 时间:2019年4月 出处:https://blog.csdn.net/longxinchen_ml/article/details/89077048 审校:龙心尘 作者:Jay Alammar 编译:张秋玥、毅航、高延 嵌入(embedding)是机器学习中最迷人的想法之一。 ...

2019-04-08 08:58:57

阅读数 3353

评论数 2

原创 深入理解BERT Transformer ,不仅仅是注意力机制

作者: 龙心尘 时间:2019年3月 出处:https://blog.csdn.net/longxinchen_ml/article/details/89058309 大数据文摘与百度NLP联合出品 作者:Damien Sileo 审校:百度NLP、龙心尘 编译:张驰、毅航 为什么BERT模型这么...

2019-04-06 17:47:51

阅读数 657

评论数 0

原创 用可视化解构BERT,我们从上亿参数中提取出了6种直观模式

作者: 龙心尘 时间:2019年1月 出处:https://blog.csdn.net/longxinchen_ml/article/details/89036531 大数据文摘联合百度NLP出品 审校:百度NLP、龙心尘 编译:Andy,张驰 来源:towardsdatascienc...

2019-04-04 22:51:19

阅读数 521

评论数 0

原创 图解Transformer(完整版)

审校:百度NLP、龙心尘 翻译:张驰、毅航、Conrad 原作者:Jay Alammar 原链接:https://jalammar.github.io/illustrated-transformer/ 编者按:前一段时间谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个...

2019-01-17 23:45:25

阅读数 5701

评论数 5

原创 NLP系列(6)_从NLP反作弊技术看马蜂窝注水事件

按:本文基于网易云课堂公开课分享内容整理补充完成。感谢志愿者july同学的贡献。 10月21日,朋友圈被一篇名为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章刷屏。文章作者小声比比指控在线旅游网站马蜂窝存在点评大量造假的情况,包括从其他网站如大众点评、携程等抓取相关点评,及通过水...

2018-11-18 21:50:10

阅读数 586

评论数 0

原创 从FM推演各深度CTR预估模型(附代码)

作者: 龙心尘 && 寒小阳 时间:2018年7月 声明:版权所有,转载请联系作者并注明出处。本文代码部分参考了lambda等同学的tensorflow实现,在...

2018-07-13 15:04:34

阅读数 5337

评论数 5

原创 计算广告小窥[下]要啥自行车!

一是总结自己已掌握的知识,二是降低同学们的学习成本。本人能力有限,更缺乏实践经验,文章内容多为书籍和论文的读后感,若有不当或者错误之处,还望各位同学指出,我定悉心求教。在此,向编写《计算广告》的刘鹏和王超两位老师致谢,向各位paper作者致谢。

2016-08-26 22:58:18

阅读数 4627

评论数 3

原创 深度学习与自然语言处理(8)_斯坦福cs224d RNN,MV-RNN与RNTN

这篇课堂笔记将介绍不同类型的RNN(递归神经网络),并介绍它在NLP领域的应用和优势。

2016-07-30 22:22:29

阅读数 7100

评论数 3

原创 深度学习与自然语言处理(7)_斯坦福cs224d 语言模型,RNN,LSTM与GRU

本文为斯坦福大学CS224d课程的中文版内容笔记,已得到斯坦福大学课程@Richard Socher教授的授权翻译与发表

2016-07-18 10:50:02

阅读数 9477

评论数 3

原创 深度学习与自然语言处理(6)_斯坦福cs224d 一起来学Tensorflow part1

Tensorflow是Google提供资金研发的,比较全,支持分布式,同时有Google这样的亲爹在,我猜资源倾斜也是迟早的事情。今天的重点自然是Tensorflow,其他的框架也都很好,大家可以自行尝试。

2016-07-10 15:21:04

阅读数 14889

评论数 0

原创 深度学习与自然语言处理(5)_斯坦福cs224d 大作业测验2与解答

原本打算把作业和答案做个编排,一起发出来给大家看,无奈代码量有点大,贴上来以后文章篇幅过长,于是乎题目的代码解答放到了百度云盘,欢迎自行下载和运行或者调整。

2016-07-03 18:50:13

阅读数 17988

评论数 0

原创 深度学习与自然语言处理(4)_斯坦福cs224d 大作业测验1与解答

前面一个接一个的Lecture,看得老衲自己也是一脸懵逼,不过你以为你做一个安安静静的美男子(总感觉有勇气做deep learning的女生也是一条汉纸)就能在Stanford这样的学校顺利毕业啦?图样图森破,除掉极高的内容学习梯度,这种顶尖大学的作业和考试一样会让你突(tong)飞(bu)猛(y...

2016-06-27 00:44:09

阅读数 23612

评论数 6

原创 深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3

这是斯坦福CS224d深度学习与自然语言处理的第3课,这节课先会介绍单层和多层神经网络和它们在机器学习分类任务中的应用, 接着介绍如何利用反向传播算法来训练这些神经网络模型(在这个方法中,我们将利用偏导数的链式法则来层层更新神经元参数)。在给出神经网络以及这些算法严谨的数学定义后,介绍了训练神经网...

2016-06-19 09:32:00

阅读数 14459

评论数 1

原创 斯坦福cs224d(深度学习在自然语言处理上的应用)Lecture 2

这个课堂笔记我们将会对词向量(也就是词嵌入)的内部任务评价和外部任务评价方法进行讨论。主要的内容是单词类比(word analogies)技术,我们会把它当做内部任务评价的技术并展示其相关示例,它会在词向量的调谐(tune)中发挥重要作用。我们还会讨论如何训练模型的权重/参数,并关注用来进行外部任...

2016-06-12 19:33:42

阅读数 16469

评论数 3

原创 斯坦福大学CS224d基础1:线性代数知识

本文为斯坦福CS229的内容,也是CS224d课程的背景数学知识。概括了在机器学习和深度学习中用到的大部分线性代数知识。为了便于大家查漏补缺,这里根据英文版本整理了一个中文版本。

2016-06-10 23:46:54

阅读数 22975

评论数 3

原创 深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1

本文为斯坦福大学CS224d课程的中文版内容笔记,已得到斯坦福大学课程@Richard Socher教授的授权翻译与发表

2016-06-02 16:13:14

阅读数 32698

评论数 5

原创 能模仿韩寒小四写作的神奇循环神经网络

作者:寒小阳 && 龙心尘 时间:2016年4月 出处: http://blog.csdn.net/han_xiaoyang/article/details/51253274 http://blog.csdn.net/longxinchen_ml/arti...

2016-04-26 20:07:41

阅读数 33655

评论数 2

原创 机器学习系列(9)_机器学习算法一览(附Python和R代码)

写这篇文章的目的,就是希望它可以让有志于从事数据科学和机器学习的诸位在学习算法的路上少走些路。我会在文章中举例一些机器学习的问题,你们也可以在思考解决这些问题的过程中得到启发。我也会写下对于各种机器学习算法的一些个人理解,并且提供R和Python的执行代码。读完这篇文章,读者们至少可以行动起来亲手...

2016-04-19 16:58:36

阅读数 27392

评论数 5

原创 深度学习与计算机视觉(11)_基于deep learning的快速图像检索系统

本系统是基于CVPR2015的论文《Deep Learning of Binary Hash Codes for Fast Image Retrieval》实现的海量数据下的基于内容图片检索系统,250w图片下,对于给定图片,检索top 1000相似时间约为1s,其基本背景和原理会在下文提到。

2016-03-16 11:34:06

阅读数 10466

评论数 5

原创 机器学习系列(8)_读《Nature》论文,看AlphaGo养成

博主是围棋小白,下棋规则都记不清楚,也没有设计过棋类AI程序。这篇文章主要是阅读《Nature》论文及关于AlphaGo的相关文章的学习心得。 本文的主要目的是增进分享,交流学习,方便初学者了解AlphaGo中的算法,以及一些机器学习中的常见思路。真正的工程实现过程远比本文介绍得复杂。 本文更多是...

2016-03-16 11:23:45

阅读数 26411

评论数 12

原创 机器学习系列(7)_机器学习路线图(附资料)

1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而言点开今日头条推给你的新闻;也习惯逛淘宝点了找相似之后货比三家;亦或喜闻乐见微软的年龄识别网站结果刷爆朋友圈。恩,这些功能的核心算法就是机器学习领域的内容。 机器学习研...

2016-02-28 11:55:21

阅读数 32717

评论数 19

原创 ML学习分享系列(2)_计算广告小窥[中]

提笔写这篇博客,我的内心是惶恐的。原因很简单,作为一个资历尚浅的研究生,是没有资格对计算广告这样一个伟大的行业、领域和学科来评头论足的。之所以这么做,一是总结自己已掌握的知识,二是降低同学们的学习成本。本人能力有限,更缺乏实践经验,文章内容多为书籍和论文的读后感,若有不当或者错误之处,还望各位同学...

2016-02-19 12:25:26

阅读数 13294

评论数 2

原创 NLP系列(5)_从朴素贝叶斯到N-gram语言模型

我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过,朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-...

2016-02-09 11:35:12

阅读数 22052

评论数 2

原创 NLP系列(2)_用朴素贝叶斯进行文本分类(上)

贝叶斯方法非常强大,有着坚实的理论基础。很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 贝叶斯公式贝叶斯公式就一行:P(Y|X)=P(X|Y)P(Y)P(X)P(Y|X)

2016-02-03 15:16:31

阅读数 35858

评论数 14

原创 NLP系列(4)_朴素贝叶斯实战与进阶

前两篇博文介绍了朴素贝叶斯这个名字读着"萌蠢"但实际上简单直接高效的方法,我们也介绍了一下贝叶斯方法的一些细节。按照老规矩,『锄头』给你了,得负责教教怎么用和注意事项,也顺便带大家去除除草对吧。恩,此节作为更贴近实际应用的部分,将介绍贝叶斯方法的优缺点、常见适用场景和可优化点,...

2016-02-03 15:10:21

阅读数 18246

评论数 4

原创 NLP系列(3)_用朴素贝叶斯进行文本分类(下)

上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks,并进一步分析贝叶斯方法,最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。

2016-02-03 14:57:53

阅读数 14148

评论数 1

原创 ML学习分享系列(1)_计算广告小窥[上]

回顾计算广告的发展历史,纵使错综复杂,但究其根本,便是广告主、媒体与用户之间相互博弈之后达到的平衡状态。在传统广告踏入互联网大门之后,在利益最大化的驱动下,媒体通过受众定向技术引领广告进入合约广告时代;在精细化投放的使命与在线分配的矛盾下,媒体选择竞价方式将计算广告推入了发展的快车道;在广告主个性...

2016-01-25 15:39:44

阅读数 11841

评论数 5

原创 深度学习与计算机视觉系列(10)_细说卷积神经网络

我们来说说卷积神经网络的特殊之处,首先卷积神经网络一般假定输入就是图片数据,也正是因为输入是图片数据,我们可以利用它的像素结构特性,去做一些假设来简化神经网络的训练复杂度(减少训练参数个数)。

2016-01-19 22:31:26

阅读数 7990

评论数 6

原创 NLP系列(1)_从破译外星人文字浅谈自然语言处理基础

本文主要是讲了一些自然语言处理的浅层内容。知识点比较零碎,可见业务场景之繁杂。我们希望从机器学习算法的角度去观察这些业务场景,以便有个清晰的认识。文本处理的一些基础内容,如正则表达式、分词断句等是自然语言预处理过程中的常用手段。编辑距离是衡量两个字符串相似性的尺度。

2016-01-19 16:30:11

阅读数 8900

评论数 10

原创 深度学习与计算机视觉系列(9)_串一串神经网络之动手实现小例子

前面8小节,算从神经网络的结构、简单原理、数据准备与处理、神经元选择、损失函数选择等方面把神经网络过了一遍。这个部分我们打算把知识点串一串,动手实现一个简单的2维平面神经网络分类器,去分割平面上的不同类别样本点。为了循序渐进,我们打算先实现一个简单的线性分类器,然后再拓展到非线性的2层神经网络。我...

2016-01-15 10:12:39

阅读数 5169

评论数 4

原创 深度学习与计算机视觉系列(8)_神经网络训练与注意点

在前一节当中我们讨论了神经网络静态的部分:包括神经网络结构、神经元类型、数据部分、损失函数部分等。这个部分我们集中讲讲动态的部分,主要是训练的事情,集中在实际工程实践训练过程中要注意的一些点,如何找到最合适的参数。

2016-01-15 10:11:01

阅读数 4181

评论数 0

原创 机器学习系列(6)_从白富美相亲看特征预处理与选择(下)

本文讲了一下特征预处理的完整流程,接下来用贝叶斯方法筛选特征,并进行判断。最后探讨了一下数据与算法的关系和机器学习的局限性。

2016-01-10 21:19:42

阅读数 25593

评论数 11

原创 机器学习系列(5)_从白富美相亲看特征选择与预处理(上)

本文中主要讲了一些特征有效性分析的方法,包括用互信息,平均互信息,条件熵,后验概率,逻辑回归权重等方法对特征与标签的相关性进行了评估。有了这些评估做基础,可以筛选出显著的特征,并对对不显著的特征进行分析、拆分和重组,最终形成新的特征并反复迭代。本文略过了一些特征预处理的方法,并对特征有效性评估的阐...

2016-01-06 21:00:52

阅读数 19375

评论数 19

原创 机器学习系列(4)_机器学习算法一览,应用建议与解决思路

先走马观花看了一遍机器学习的算法,然后给出了对应scikit-learn的『秘密武器』机器学习算法使用图谱,紧接着从了解数据(可视化)、选择机器学习算法、定位过/欠拟合及解决方法、大量极的数据可视化和损失函数优缺点与选择等方面介绍了实际机器学习问题中的一些思路和方法。本文和文章机器学习系列(3)_...

2016-01-06 19:40:57

阅读数 14928

评论数 4

原创 深度学习与计算机视觉系列(7)_神经网络数据预处理,正则化与损失函数

上一节我们讲完了各种激励函数的优缺点和选择,以及网络的大小以及正则化对神经网络的影响。这一节我们讲一讲输入数据以及损失函数设定的一些事情。

2016-01-03 16:52:14

阅读数 15060

评论数 2

原创 深度学习与计算机视觉系列(6)_神经网络结构与神经元激励函数

那我们咋选用神经元/激励函数呢?一般说来,用的最多的依旧是ReLU,但是我们确实得小心设定学习率,同时在训练过程中,还得时不时看看神经元此时的状态(是否还『活着』)。当然,如果你非常担心神经元训练过程中挂掉,你可以试试Leaky ReLU和Maxout。额,少用sigmoid老古董吧,有兴趣倒是可...

2016-01-02 13:56:47

阅读数 12874

评论数 0

原创 深度学习与计算机视觉系列(5)_反向传播与它的直观理解

一般直观上理解反向传播算法就是求导的一个链式法则而已。但是偏偏理解这部分和其中的细节对于神经网络的设计和调整优化又是有用的,所以硬着头皮写写吧。

2015-12-16 08:31:15

阅读数 18329

评论数 3

提示
确定要删除当前文章?
取消 删除