NLP自然语言处理理论篇
只想安静的一个人
这个作者很懒,什么都没留下…
展开
-
NLP学习记录(零)
NLP作为人工智能领域一个重要的版块,需要掌握的东西很多,首先弄清楚NLP到底能做什么,并了解学习NLP面临的困难。NLP研究内容信息检索(搜索引擎)机器翻译文档分类问答系统信息过滤自动文摘信息抽取舆情分析(情感分析)机器写作文稿机对接OCR或语音识别(OCR图片文字识别,语音识别为语音转文字STT)困难场景 语言多样性,多变性,语言歧义知识基础...原创 2018-06-21 23:16:22 · 928 阅读 · 0 评论 -
viterbi-algorithm 维特比算法的例子解析
维特比算法的目的:寻找最可能的隐藏状态序列(Finding most probable sequence of hidden states)关于原理的讲解可以参考下面两篇文章,讲的比较清楚小白给小白详解维特比算法1.小白给小白详解维特比算法2.本文通过分析维特比算法的例子,来学习该算法定义HMM的五个重要元素,# 隐藏序列 Sstates = ("Rainy", "Sunn...原创 2019-05-28 15:15:24 · 2986 阅读 · 1 评论 -
Hanlp词性表
HanLP词性标注集 1 Are a 形容词 ad 副形词 ag 形容词性语素 al 形容词性惯用语 an 名形词 b 区别词 begin bg 区别语素 bl 区别词性惯用语 c 连词 cc 并列连词 d 副词 dg 辄,...原创 2018-07-14 15:41:22 · 22352 阅读 · 3 评论 -
NLP学习记录(七)中文分词
一、分词的困难- 分词规范化的的问题 1. 单字词与词素主机的划界 2. 短语划界 3. “二字词或三字词”,以及结合紧密,使稳定的二字次或三字词一律划分为词单位- 歧义切分问题 1. 交集型切分歧义 2. 组合型切分歧义 3. 多义组合型切分歧义- 未登录词的问题 1. 人名、地名、组织名 2. 新出的词汇 3. 术语、俗语、命名体识别...原创 2018-06-27 17:30:22 · 570 阅读 · 0 评论 -
NLP学习记录(七)条件随机场(CRF)
条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理(NLP)、生物信息学、机器视觉及网络智能等领域。1.随机场 简单地讲,随机场可以看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。当给每一个...转载 2018-06-26 16:55:10 · 482 阅读 · 0 评论 -
NLP学习记录(六)最大熵模型MaxEnt
原理在叧掌握关于未知分布的部分信息的情况下,符合已知知识的概率分布可能有夗个,但使熵值最大的概率分布最真实地反映了事件的的分布情况,因为熵定义了随机变量的不确定性,弼熵值最大时,随机变量最不确定,最难预测其行为。最大熵模型介绍我们通过一个简单的例子来介绍最大熵概念。假设我们模拟一个翻译专家的决策过程,关于英文单词in到法语单词的翻译。我们的翻译决策模型p给每一个单词或短语分配一...转载 2018-06-26 16:28:50 · 4847 阅读 · 0 评论 -
NLP学习记录(五)最大期望值算法(EM算法)
概念:在统计学中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)1)计算期望(E),利用概率模型参数的现有估计值,计算隐藏变量的期望; 2)最大化(M),利用E 步上求得的隐藏变量的期望,对参数模型进行最大似然估计。 3)M 步上找到的参数估计值被用于下一...转载 2018-06-26 15:33:36 · 2663 阅读 · 0 评论 -
NLP学习记录(四)马尔科夫模型
马尔科夫模型 是一种统计模型,经过长期发展,尤其是在语音识别中的成功应用,使它成为一种通用的统计工具马尔科夫过程 将来只依赖于现在而不依赖过去马尔科夫链 时间和状态都是离散的马尔可科夫过程称为马尔科夫链 应用 广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。产生式模型 VS 生成式模型 分类器的概念: 输入为X,分类变量Y 求P(Y|X)...原创 2018-06-24 14:27:33 · 878 阅读 · 0 评论 -
NLP学习记录(三)语言模型
语言模型通俗的来说就是通过语料,计算某个句子出现的概率N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。二元文法(一阶马尔科夫链) 以二元语法为例,近似的认为,一...原创 2018-06-23 16:41:02 · 420 阅读 · 0 评论 -
NLP学习记录(二)形式语法
形式语法 G = (N,Σ,P,S) N:非终结符的有限集合 Σ:终结符有限集合 P:一组重写规则集合 S:句子或者初始符号 V:总结词汇表 V = N∪Σ 重写规则 P = {α → β} α由V中元素构成的集合,且至少包含一个非终结符形式语法类型 文法 G 名称 语言 L(G) 名称 0型文法 短语结构文法(PSG) 0型语言 短...原创 2018-06-22 23:10:52 · 293 阅读 · 0 评论 -
NLP学习记录(一)图与树的基本概念
图的概念:1.无向图:属于定点与边界的集合 G = (N,E) G为图,N(node)为顶点的集合,E(edge)为边的集合 G = (N,E) N = {v1,v2,v3,v4,v5,v6} E = {(v1,v2),(v1,v3),(v1,v4),(v2,v5),(v3,v4),(v3,v5),(v3,v6),(v4,v6),(v5,v6)}2.有向图:概念与无向图一样,只是...原创 2018-06-22 16:51:31 · 938 阅读 · 0 评论 -
HMM模型的一些理解
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型。下面用一个简单的例子来阐述:假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子(称这...原创 2019-05-28 15:18:16 · 1171 阅读 · 0 评论