nlp
文章平均质量分 81
glory-of-me
这个作者很懒,什么都没留下…
展开
-
Deep Learning in NLP (一)词向量和语言模型
这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较赞同的微博。@王威廉:Steve Renals算了一下icassp录取文章题目转载 2016-07-29 21:38:00 · 830 阅读 · 0 评论 -
Stanford-parser依存句法关系解释
计算机语言学家罗宾森总结了依存语法的四条定理:1、一个句子中存在一个成分称之为根(root),这个成分不依赖于其它成分。2、其它成分直接依存于某一成分;3、任何一个成分都不能依存与两个或两个以上的成分;4、如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;5、中心成分左右两面的其它成分相互不转载 2017-02-07 09:25:23 · 4701 阅读 · 0 评论 -
北大词性标注集
代码 名称 帮助记忆的诠释 Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。 a 形容词 取英语形容词adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。 an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。原创 2017-01-06 23:37:18 · 2994 阅读 · 0 评论 -
NLPIR RuntimeError: NLPIR function 'NLPIR_Init' failed 解决方案
运行出现的问题:[python] view plain copyTraceback (most recent call last): File "", line 1, in File "pynlpir/__init__.py", line 99, in open raise Runtim原创 2017-01-06 23:21:09 · 4884 阅读 · 2 评论 -
基于Word2Vec Doc2Vec 进行文本情感分类
Modern Methods for Sentiment AnalysisMichael CzernySentiment analysis is a common application of Natural Language Processing (NLP) methodologies, particularly classification, who转载 2016-09-06 21:58:43 · 13687 阅读 · 0 评论 -
斯坦福大学深度学习与自然语言处理第一讲:引言
斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程:CS224d: Deep Learning for Natural Language Processing,授课老师是青年才俊 Richard Socher,他本人是德国人,大学期间涉足自然语言处理,在德国读研时又专攻计算机视觉,之后在斯坦福大学攻读博士学位,拜师NLP领域的巨牛 Chris Manning 和 Deep转载 2016-09-06 21:51:51 · 836 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(三):自动摘要
有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读转载 2016-08-08 23:06:18 · 359 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手转载 2016-08-08 23:05:29 · 516 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通转载 2016-08-08 23:04:08 · 525 阅读 · 0 评论 -
朴素贝叶斯分类器的应用
贝叶斯分类是非常常用的分类算法,可以用来做很多有意思的事情。生活中很多场合需要用到分类,比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法。一、病人分类的例子让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。某个医院早上收了六个门诊病人,如下表。转载 2016-08-08 23:01:50 · 2355 阅读 · 0 评论 -
贝叶斯推断及其互联网应用(二):过滤垃圾邮件
上一次,我介绍了贝叶斯推断的原理,今天讲如何将它用于垃圾邮件过滤。========================================贝叶斯推断及其互联网应用作者:阮一峰(接上文)七、什么是贝叶斯过滤器?垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"转载 2016-08-08 22:59:52 · 984 阅读 · 0 评论 -
贝叶斯推断及其互联网应用(一):定理简介
很不错的文章,之前用贝叶斯写了一个电商评论情感分析的程序。一年前的这个时候,我正在翻译Paul Graham的《黑客与画家》。日期: 2011年8月25日那本书的第八章,写了一个非常具体的技术问题----如何使用贝叶斯推断过滤垃圾邮件(英文版)。我没完全看懂那一章。当时是硬着头皮,按照字面意思把它译出来的。虽然译文质量还可以,但是心里很不舒服,下决心一定要搞懂它转载 2016-08-08 22:57:44 · 389 阅读 · 0 评论 -
平滑处理
背景:为什么要做平滑处理? 零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。拉普拉斯的理论支撑 为了解决零概率的问题,法国数学家拉转载 2016-07-21 21:48:37 · 1515 阅读 · 0 评论 -
情感词典构建
看到一篇文章写的很清楚简洁,直接转了。------------------------------------------------------------------------------------------------------------------------某主席说,“没有情感词典的“使用该情感词典进行情感分析”都是耍流氓。”某帝说,“要有情感词典。”转载 2017-03-02 20:58:15 · 29210 阅读 · 6 评论