自然语言处理
宣宣啊
毕业于家里蹲大学,爱好写字,旅行。
展开
-
自然语言处理(十四)——隐马尔科夫模型(HMM)初步理解
一、前言本文主的目的是对隐马尔科夫模型进行初步的理解,也就是明白这个隐马尔科夫模型到底是个什么东西,明报这个隐马尔科夫模型到底有什么用。至于怎么利用这个马尔科夫模型做一个解决语音识别领域问题的小成品,本文还没有涉及,本人水平有限,正处在小白学习的阶段,因此有什么错误的地方,望各位不吝赐教。下面进入正题,这里用知乎一位答主的例子黄以及志洪老师课程来理解隐马尔科夫模型。二、骰子案例来理解HMM...原创 2020-01-08 11:23:34 · 711 阅读 · 0 评论 -
自然语言处理(十三)——马尔科夫链运用之page rank算法
一、绪论上一篇文章介绍了马尔科夫链的概念以及相关的计算,例如转移概率,转移概率矩阵等。明白了马尔科夫链是个什么以后,它到底有什么用处?当然用处是非常大,可以说马尔科夫链对谷歌的诞生有非常大的影响。谷歌初创时,搜索引擎还不成熟,人们输入关键字进行搜索时,出来的网页可能质量并不怎么让人满意。因为当初的搜索引擎,在根据关键字爬取网页后,就简单的根据字数统计等等这些指标来排序,因此高质量的网页可能会被...原创 2020-01-07 13:54:29 · 515 阅读 · 0 评论 -
自然语言处理(十二)——马尔科夫过程
一、绪论1.随机过程:就是一族(无限多个)随机变量{ X(t), t},其中,t是参数,它属于某个指标集T,T称为参数集。通常,我们把t看作是时间。X(t)为时刻t时过程的状态。所有的状态称为随机过程的状态空间。接下来用一个例子来理解一下这个随机过程,物理中的分子无规则运动中,随时间的变化,分子的运动一时刻是一时刻的位移,运动的位置也没有什么具有的规则。这就是一个随机过程的例子,可以看出想...原创 2020-01-06 14:19:58 · 2329 阅读 · 0 评论 -
自然语言处理(十一)——产生式模型和判别式模型
前言产生式模型和判别式模型的区别,下面会用一个天气判断的案例来解释。首先我们需要了解一下什么是分类器,用数学的符号来描述分类器就是:输入x以及分类变量y,求p(y | x)。例如,x是云量、气温、湿度。y是天气状况(下雨?不下雨?)。分类器的作用就是分析云量等这些指标,来得出下雨或者不下雨的概率。一、两种模型的思想到底怎么计算下雨的概率,产生式模型和判别式模型有不同的计算思想。产生式模...原创 2020-01-05 21:38:35 · 592 阅读 · 0 评论 -
自然语言处理(十)——概率图模型之贝叶斯网
一、概念概率图模型在概率模型的基础上,使用了基于图的方法来表示概率分布(或者概率密度、密度函数),是一种通用化的不确定性知识表示和处理方法。在概率图模型的表达中,结点表示变量,结点之间直接相连的边表示相应变量之间的概率关系。这是教材上的解释,概率论我没系统学过,光看这个概念我是不懂的,下面是教材上的例子:我们现在想求联合概率分布时,也就是每一种情况的概率,季节有4种选择,有2种病,两...原创 2020-01-05 17:34:28 · 359 阅读 · 0 评论 -
自然语言处理(九)——数据平滑
一、概念什么是数据平滑?我通过一个例子来解释一下。假设有如下语料库:{ 今天 天气 不错, 天气 晴朗, 晴朗 的 天气,}如果要计算句子s=“晴朗天气”的概率(用二元语法模型,自然语言处理(七)已经介绍过),有如下计算过程。p(天气 | 晴朗) = c(晴朗天气)/ c(晴朗) == 0显然上面计算得到的概率不怎么准确,晴朗天气总有出现的可能,最...原创 2020-01-04 16:49:34 · 2790 阅读 · 0 评论 -
自然语言处理(八)——语言模型性能评价
一、概念信息熵:熵这个概念是香农从热力学中引进的,热力学中的熵是代表分子状态混乱程度,在信息论中熵又称为自信息,可以视为描述一个随机变量的不确定性的数量。它表示信源X每发一个符号(不论发什么符号)所提供的平均信息量。一个随机变量的熵越大,它的不确定性越大,那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。这是宗成庆老师的书《统计自然语言处理》里面的解释,光看...原创 2020-01-03 22:35:57 · 582 阅读 · 0 评论 -
自然语言处理(七)——n元语法模型计算句子出现概率
一、前言区别于形式语言进行自然语言处理,语言模型在自然语言处理中不关心句子的语法,而是关心这个句子出现的概率,即使一个句子完全符合语法逻辑,但是在语料库中未出现,我们仍然可以认为这个句子出现的概率为0。目前计算句子的概率一般采取n元语法模型,因此接下来就引入n元语法模型二、n元语法模型介绍n元语法模型之前,要懂一个理想情况下计算概率的模型。对于一个由m个基元(“基元”可以为字、词或短语...原创 2020-01-02 21:26:53 · 4978 阅读 · 0 评论 -
自然语言处理(六)——词性消歧
一、前言词性标注就是将每个单词的词性标注出来,标注的实现可以利用语料库,但是同一个单词在不同的句子可能会有不同的词性,这时就需要词性消歧。下面举一个例子。以下三个句子,分别标注了词性,np是名词,vbn是过去分词,vbd是过去式,by是介词by(1) Chapman/np killed/vbn John/np Lennon/np John/np(2) Lennon/np was...原创 2020-01-02 11:22:37 · 750 阅读 · 0 评论 -
自然语言处理(五)——单词纠错
一、概念编辑距离(Edit Distance):是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。精准的定义就不多说了,直接上例子来理解这个编辑距离。编辑主要有三个操作:插入、删除、修改。例如:goood变为good,只需要删除一个o,因此编辑距离是1。gd变为god。只需要插入一个o,因此编辑距离是1。gwd变为god,只要修改w为o,因此编辑距离是1。cutoff编辑距离(...原创 2020-01-02 07:46:06 · 1540 阅读 · 0 评论 -
自然语言处理(四)——下推自动机接受的语言
一、概念下推自动机的定义:一个不确定的PDA可以表达成一个7元组: M = (Σ, Q, Γ, δ, q0, Z0, F) 其中,Σ 是输入符号的有穷集合; Q 是状态的有限集合; q0 ∈ Q 是初始状态; Γ 为下推存储器符号的有穷集合; Z0∈Γ 为最初出现在下推存储器顶端的开始符号; F 是终止状态集合,F ⊆ Q; δ 是从 Q×(Σ∪{ε})×Γ 到 Q×Γ* 的子集的映射。映...原创 2020-01-01 14:26:56 · 3053 阅读 · 2 评论 -
自然语言处理(三)——自动机理论
前言如何判断一个句子是否符合文法的规则,自动机是很简便的方法。四种文法对应四种自动机来判断验证,接下来就介绍一下四种文法和四种自动机的对应。一、有限自动机确定的有限自动机 (Definite Automata, DFA)确定的有限自动机 M 是一个五元组: M = (Σ, Q, δ, q0, F) 其中,Σ 是输入符号的有穷集合; Q 是状态的有限集合; q0 ∈ Q 是初始状态;...原创 2019-12-31 12:12:20 · 1382 阅读 · 0 评论 -
自然语言处理(二)——乔姆斯基4型文法
一、正则文法(3型)定义:如果文法 G=(N, Σ, P, S) 的 P 中的规则满足如下形式:A → B x(这里注意B只是一个形式,代表非终结符),或 A → x,其中 A, B ∈ N,x ∈ Σ, 则称该文法为正则文法(简写为 FSG)或称3型文 法。(左线性正则文法)(如果 A → x B,则该文法 称为右线性正则文法。)例如有如下规则:A→ Ax,A → x。那么可以推出AA...原创 2019-12-31 09:54:53 · 3139 阅读 · 1 评论 -
自然语言处理(一)——文法(形式语言)基本概念
一、基本概念1.字符串:假定 Σ 是字符的有限集合,它的每一个元素称之为字符。由 Σ 中字符相连而成的有限序列被称之为Σ上的字符串。这是教材对于字符串的定义,通俗地理解,字符串就是一连串的字符。不包括任何字符的字符串称为空串,记作 ε。包括空串的 Σ 上字符串的全体记为 Σ*。例如Σ=abcd。 Σ*可以理解为a、b、c、d这四个字符的任意组合再加上空串ε的集合。2.字符串的连接:...原创 2019-12-30 22:21:33 · 2255 阅读 · 0 评论