Data Science:NLP相关
文章平均质量分 78
图灵的猫.
给行业以ai,而不是给ai以行业
展开
-
Python正则表达式:match(),search(),findall()与finditer()的用法
我的机器学习教程「美团」算法工程师带你入门机器学习 已经开始更新了,欢迎大家订阅~任何关于算法、编程、AI行业知识或博客内容的问题,可以随时扫码关注公众号「图灵的猫」,加入”学习小组“,沙雕博主在线答疑~此外,公众号内还有更多AI、算法、编程和大数据知识分享,以及免费的SSR节点和学习资料。其他平台(知乎/B站)也是同名「图灵的猫」,不要迷路哦~一、模...原创 2018-03-06 19:13:01 · 28474 阅读 · 0 评论 -
自然语言处理:什么是词嵌入(word embedding)?
词嵌入(word embedding)是一种词的类型表示,具有相似意义的词具有相似的表示,是将词汇映射到实数向量的方法总称。词嵌入是自然语言处理的重要突破之一。下面将围绕什么是词嵌入、三种词嵌入的主要算法展开讲解,并通过案例具体讲解如何利用词嵌入进行文本的情感分析。什么是词嵌入?词嵌入实际上是一类技术,单个词在预定义的向量空间中被表示为实数向量,每个单词都映射到一个向量。举个例子,比如在一...转载 2019-01-29 21:46:43 · 20026 阅读 · 1 评论 -
[NLP自然语言处理]谷歌BERT模型深度解析
全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。可以预见的是,BERT将为NLP带来里程碑式的改变,也是NLP领域近期最重要的进展。BERT模型开启了NLP的新时代!从现在的大趋势来看,使用某种模型预训练一个语言模型看起来是一种比较靠谱的方法。原创 2018-10-15 17:49:18 · 106959 阅读 · 21 评论 -
word2vec的应用场景
对一个新用户,此题基本无解,如果在已知用户关注了几个『大V』之后,相当于知道了当前用户的一些关注偏好,根据此偏好给他推荐和他关注过大V相似的大V,就是一个很不错的推荐策略。同样的,在计算广告中,根据用户的点击广告的点击序列,将每一个广告变为一个向量。word -> 每一个大V就是一个词。原创 2018-08-28 00:13:58 · 2079 阅读 · 0 评论 -
隐马尔可夫模型通俗导论
我的机器学习教程「美团」算法工程师带你入门机器学习 以及「三分钟系列」数据结构与算法已经开始更新了,欢迎大家订阅~这篇专栏整合了这几年的算法知识,简单易懂,也将是我实体书的BLOG版。欢迎大家扫码关注微信公众号「图灵的猫」,除了有更多AI、算法、Python相关文章分享,还有免费的SSR节点和外网学习资料。其他平台(微信/知乎/B站)也是同名「图灵的猫」,不要迷路哦~...原创 2018-06-20 14:36:55 · 521 阅读 · 0 评论 -
什么是熵(entropy)?
下面分别给出熵、联合熵、条件熵、相对熵、互信息的定义。熵:如果一个随机变量X的可能取值为X = {x1, x2,…, xk},其概率分布为P(X = xi) = pi(i = 1,2, ..., n),则随机变量X的熵定义为:把最前面的负号放到最后,便成了:上面两个熵的公式,无论用哪个都行,而且两者等价,一个意思(这两个公式在下文中都会用到)。联合熵:两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示。条件熵。原创 2018-06-03 19:56:14 · 94583 阅读 · 1 评论 -
最新中文停用词库(txt格式,可下载)
点进去,右键页面另存为txt即可。原创 2018-04-12 21:27:52 · 41302 阅读 · 7 评论 -
编译原理:有穷自动机(DFA与NFA)
幸运的是,只需要很简单的规则,就能把任何正则表达式转化成NFA,而任何一个NFA又都可以转化为DFA,这样我们就能把正则表达式转化为易于编程的DFA,来真正进行词法分析的工作。如果经过字母a,则该字符串肯定是非法的。程序实现也非常简单,状态和字母都被编码成整数,使用一个矩阵表示状态转移,再写一个函数表示自动机的运行,对每一个字符串,从状态1开始运行,运行完毕进行状态判断即可。FA可以看做是一个有向带权图,图的顶点集合称为自动机的状态集合,图的权值集合为自动机的字母集合,图的边代表了自动机中状态变化的情况。原创 2018-03-01 19:38:25 · 51792 阅读 · 1 评论 -
BPTT算法推导以及LSTM是如何解决梯度消失的
在博客里看见的一个非常有用的推导过程,自己记录一下之后复习用:下面贴一下笔记:转载 2019-05-11 11:17:11 · 1117 阅读 · 0 评论