
自然语言处理
文章平均质量分 86
寒小阳
对机器学习/数据挖掘/算法感兴趣,并从事相关工作。『我们是一群热爱机器学习,喜欢交流分享的小伙伴,希望通过“ML学分计划”交流机器学习相关的知识,认识更多的朋友。Q_Q群号 : 2000人群169492443(已满), 2000人群564538990(已满), 2000人群285273721,从业和研究人员请加群472059892,欢迎加入获取资料,分享和讨论相关知识』
展开
-
NLP系列(1)_从破译外星人文字浅谈自然语言处理的基础
如果让你破译“三体”人文字你会怎么办?我们试着开一下脑洞:假如你有一个优盘,里面存了大量“三体”人(刘慈欣小说中的高智能外星人)的网络文本信息...当面对一种一无所知的语言的时候,似乎最直接的方法就是掌握大量的语料库,而且这些语料最好是经过各种方式标注了的。然后对其进行各种各样的统计,发掘一些有价值的信息。这是传说中自然语言处理的经验主义视角。原创 2016-01-20 00:01:48 · 23935 阅读 · 2 评论 -
NLP系列(9)_深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘与百度NLP联合出品作者:Damien Sileo审校:百度NLP、龙心尘编译:张驰、毅航https://blog.csdn.net/longxinchen_ml/article/details/89058309原文链接:https://medium.com/synapse-dev/understanding-bert-transformer-attention-isnt-a...原创 2019-04-08 09:56:43 · 4018 阅读 · 0 评论 -
NLP系列(8)_用可视化解构BERT,从上亿参数中提取出的6种直观模式
大数据文摘联合百度NLP出品审校:百度NLP、龙心尘编译:Andy,张驰来源:towardsdatascience.comhttps://blog.csdn.net/longxinchen_ml/article/details/89036531编者按: 深度神经网络的超强有效性一直让人疑惑。经典论文《可视化与理解CNN》(Visualizing and Understanding Con...原创 2019-04-08 09:54:32 · 4241 阅读 · 0 评论 -
NLP系列(7)_Transformer详解
审校:百度NLP、龙心尘翻译:张驰、毅航、Conrad原作者:Jay Alammar原链接:https://jalammar.github.io/illustrated-transformer/编者按:前一段时间谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型...原创 2019-01-20 11:29:23 · 8858 阅读 · 5 评论 -
NLP系列(6)_从NLP反作弊技术看马蜂窝注水事件
作者: 龙心尘时间:2018年11月出处:https://blog.csdn.net/longxinchen_ml/article/details/84205459按:本文基于网易云课堂公开课分享内容整理补充完成。感谢志愿者july同学的贡献。10月21日,朋友圈被一篇名为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章刷屏。文章作者小声比比指控在线旅游网站马蜂窝存在点评大...原创 2018-11-18 22:06:00 · 4633 阅读 · 2 评论 -
全球名校课程作业分享系列(3)--斯坦福计算机视觉与深度学习CS231n之softmax图像多分类
课程作业原地址:CS231n Assignment 1 作业及整理:@林凡莉 && @Molly && @寒小阳 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/791383521. 任务这次练习跟SVM练习类似。你将完成下面的任务:通过矩阵运算为Softmax分类器实现一个损失函数为这个损原创 2018-01-23 13:06:58 · 13833 阅读 · 3 评论 -
深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1
这是本课程的第一节,我们会先介绍自然语言处理(NLP)的概念和NLP现在所面对问题;然后开始讨论用数学向量代表自然语言词组的设想。最后我们会讨论现行的词向量构造方法。原创 2016-06-02 16:00:08 · 50481 阅读 · 15 评论 -
NLP系列(4)_朴素贝叶斯实战与进阶
本文为朴素贝叶斯的实践和进阶篇,先丢了点干货,总结了贝叶斯方法的优缺点,应用场景,注意点和一般建模方法。紧接着对它最常见的应用场景,抓了几个例子,又来了一遍手把手系列,不管是对于文本主题分类、多分类问题(犯罪类型分类) 还是 情感分析/分类,朴素贝叶斯都是一个简单直接高效的方法。尤其是在和逻辑回归的对比中可以看出,在这些问题中,朴素贝叶斯能取得和逻辑回归相近的成绩,但是训练速度远快于逻辑回归,真正的直接和高效。原创 2016-02-03 15:07:54 · 57218 阅读 · 16 评论 -
NLP系列(3)_用朴素贝叶斯进行文本分类(下)
上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks,并进一步分析贝叶斯方法,最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。原创 2016-02-03 15:02:55 · 34390 阅读 · 8 评论 -
NLP系列(2)_用朴素贝叶斯进行文本分类(上)
1. 引言贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式原创 2016-02-01 09:51:55 · 45167 阅读 · 13 评论 -
NLP系列(5)_从朴素贝叶斯到N-gram语言模型
我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过,朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-gram语言模型。原创 2016-02-09 13:10:58 · 22970 阅读 · 3 评论 -
NLP系列(10)_词向量之图解Word2vec
审校:龙心尘作者:Jay Alammar编译:张秋玥、毅航、高延https://blog.csdn.net/longxinchen_ml/article/details/89077048原文链接:https://jalammar.github.io/illustrated-word2vec/嵌入(embedding)是机器学习中最迷人的想法之一。 如果你曾经使用Siri、Google...原创 2019-04-08 09:58:35 · 30477 阅读 · 2 评论