白马负金羁

数据挖掘 | 统计分析 | 图像处理 | 程序设计

排序:
默认
按更新时间
按访问量

Word Embedding与Word2Vec

词嵌入(Word Embedding)是NLP中的一个重要话题。随着深度学习的兴起,研究人员开始设计基于神经网络的词嵌入方法,其中最为重要,也是当前最流行的Word Embedding方法就是Tomas Mikolov在谷歌工作时发明的Word2Vec方法,同时谷歌还开源了Word2Vec这个工具...

2017-09-05 02:39:43

阅读数:6425

评论数:0

TF-IDF算法解析与Python实现

TF-IDF是一种用于信息检索与文本挖掘的常用加权技术。例如当手头有一些文章时,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能够用于评估一个词语对于一个文集或一个语料库中一份文档的重要性。本文基于自然语言处理中的一些方法,利用Python实现 ...

2016-05-23 13:18:20

阅读数:27965

评论数:12

自然语言处理中N-Gram模型的Smoothing算法

为了解决使用N-Gram模型时可能引入的稀疏数据问题,人们设计了多种平滑(Smoothing)算法,本文将讨论其中最为重要的几种。具体包括:Add-one (Laplace) Smoothing, Add-k Smoothing, Backoff(回退),Interpolation(插值),Abs...

2016-05-02 19:35:34

阅读数:17067

评论数:1

自然语言处理中的N-Gram模型详解

N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。本文将从此开始,进而向读者展示N-...

2016-04-29 21:32:23

阅读数:69554

评论数:5

自然语言处理实战之微博情感偏向分析

自然语言处理(NLP)中一个很重要的研究方向就是语义的情感分析(Sentiment Analysis)。例如IMDB上有很多关于电影的评论,那么我们就可以通过Sentiment Analysis来评估某部电影的口碑。本文演示利用Scikit Learn工具箱中的Logistic Regressio...

2016-04-14 23:22:38

阅读数:9703

评论数:4

Python自然语言处理:词干、词形与MaxMatch算法

自然语言处理中一个很重要的操作就是所谓的stemming 和 lemmatization,二者非常类似。它们是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。基于贪婪策略设计的MaxMatch算法在中文自然语言处理中应用广泛,本文结合NLTK来演示在Python下进行...

2016-04-06 18:47:59

阅读数:9469

评论数:1

利用NLTK在Python下进行自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。自然语言工具箱(NLTK,Natural Language Toolkit)是一个基于Python语言的类库,它也是当前最为流行的自然语言编程与开发工具。在进行自然语言处理研究和应用时,恰当利用NLTK中提供的函数可以大幅度地提高效率。本...

2016-04-03 20:14:50

阅读数:23544

评论数:2

Rocchio算法

查询扩展(Query Expansion)是信息检索领域的一个重要话题。Rocchio算法源自1970年代建立的SMART IR 系统。它以在 IR 系统建立的 RF 方法为基础,通过查询的初始匹配文档对原始查询进行修改以优化查询的方法。Rocchio算法提供了一种将相关反馈信息融到向量空间模型(...

2016-03-19 11:53:32

阅读数:3650

评论数:2

在信息检索中应用Inverted Index

Inverted Index是一种索引数据结构,在很多DBMS中都有使用。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。在信息检索系统中,Inverted Index是一...

2011-03-19 00:06:00

阅读数:3799

评论数:14

逐点互信息PMI(Pointwise mutual information)

在数据挖掘或者信息检索的相关资料里,经常会用到PMI这个指标来衡量两个事物之间的相关性。而在NLP中,考察两个词的相关性也非常有意义。孔子说:“不知其人视其友” 。英语俗语中也有类似表述:“You shall know a person by the company it keeps.” 后来语言...

2010-10-28 14:30:00

阅读数:4355

评论数:20

信息检索中的经典算法——BM25

BM25(Best Match25)是在信息检索系统中根据提出的query对document进行评分的算法。它主要由Stephen E. Robertson, Karen Spärck Jones等人在上世纪70到80年代提出。BM25算法首先由Okapi系统实现(Okapi是伦敦城市大学实现的信...

2010-10-25 23:00:00

阅读数:3244

评论数:20

自然语言处理中的Earley算法

前面我们已经讲过在对CFG进行语法解析(Parsing)时,有两种主要策略,即自下向上和自上向下两种。其中自下向上的代表算法就是CKY算法,本文将介绍另外一种采用自上向下策略设计的著名算法——Earley算法。与CKY算法类似,Earley算法也是基于动态规划思想设计的,但不同的是,Earley算...

2010-05-10 15:22:00

阅读数:4197

评论数:13

概率上下文无关文法PCFG

面对CFG可能产生多种语法分析结果的问题,一个很重要的处理方法就是引入概率上下文无关文法(PCFGs,Probabilistic context-free grammars ),最初由Booth于1969年提出。对PCFG进行语法分析时,还会用到Probabilistic CKY 算法,它是在原始...

2010-04-27 12:59:00

阅读数:4394

评论数:25

自然语言处理中的上下文无关文法(CFG)

最常被用来对英语(或其他自然语言)之成分结构进行建模的数学系统就是上下文无关文法(CFG)。一个CFG由一系列rules(或productions)组成,每个rule给出了 语言中的符号(symbols)可以被组织或排列在一起的规则,以及符号和单词构成的字典(lexicon)

2009-12-26 21:59:00

阅读数:2582

评论数:10

CYK算法详解

在计算机科学领域,CYK算法(也称为Cocke–Younger–Kasami算法)是一种用来对 上下文无关文法(CFG,Context Free Grammar)进行语法分析(parsing)的算法。该算法最早由John Cocke, Daniel Younger and Tadao Kasami...

2009-10-14 19:13:00

阅读数:3917

评论数:8

序列标签与BIO编码

Sequence labeling是自然语言处理中的一个元问题。特别在raw labelling中,BIO encoding 是一种常见而且重要的方式,在NER(named entity recognition)中具有很重要的应用

2009-07-22 11:50:00

阅读数:3945

评论数:16

统计机器翻译中的IBM1模型

机器翻译(Machine Translation)是自然语言处理中一个重要的研究反向。特别是随着机器学习技术的发展,当前机器翻译的主流已经转向基于统计机器学习的方法。在这个过程中,IBM的研究人员提出了一系列的SMT(Statistical Machine Translatio)方法,对这个领域的...

2009-07-10 21:15:00

阅读数:3656

评论数:6

提示
确定要删除当前文章?
取消 删除
关闭
关闭