自然语言处理学习日记4

1. CTB 6.0的标注体系

解析:

[1]词类标记[33个]

[2]句法标记[23个]:短语标记[17个];动词复合标记[6个]

[3]功能标记[26个]

[4]空范畴标记[7个]

 

2. JAXB

解析:JAXB[Java Architecture for XML Binding]是一个业界的标准,是一项可以根据XML Schema产生Java类的技术。该过程中,JAXB也提供了将XML实例文档反向生成Java对象树的方法,并能将Java对象树的内容重新写到XML实例文档。从另一方面来讲,JAXB提供了快速而简便的方法将XML模式绑定到Java表示,从而使得Java开发者在Java应用程序中能方便地结合XML数据和处理函数。

 

3. WSDL

解析:WSDL[网络服务描述语言,Web Services Description Language]是一门基于XML的语言,用于描述Web Services以及如何对它们进行访问。

 

4. 双数组Trie[Double Array Trie]

解析:双数组Trie[Double Array Trie,DAT]是Trie树的一个简单而有效的实现,它由两个整数数组构成,一个是base[],另一个是check[]。设数组下标为i,如果base[i],check[i]均为0,表示该位置为空。如果base[i]为负值,表示该状态为词语。check[i]表示该状态的前一状态,t=base[i]+a,check[t]=i。

 

5. Trie树

解析:Trie树[前缀树,字典树,单词查找树或者键树]本质上是一个确定的有限状态自动机[DFA],每个节点代表自动机的一个状态,根据变量的不同,进行状态转移,当到达结束状态或者无法转移的时候,完成查询。Trie树的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。Trie树查询的速率只和要查询的字符长度有关,查询结果最好的情况是O(1),即在第一层即可判断是否搜索到,最坏的情况是O(n),n为查询词的长度。

 

6. 上下文无关文法[Context-Free Grammar,CFG]

解析:上下文无关文法,如下所示:

[1]N表示一组非叶子节点的标注,比如{S、NP、VP、N...}。

[2]Σ表示一组叶子结点的标注,比如{boeing、is...}。

[3]R表示一组规则。

[4]S表示语法树开始的标注。

 

7. 概率上下文无关文法[Probabilitic Context-Free Grammar,PCFG]

解析:语法树概率最大。

 

8. 自动机

解析:自动机是一种理想化的“机器”,它只是抽象分析问题的理论工具,并不具有实际的物质形态。它是科学定义的演算机器,用来表达某种不需要人力干涉的机械性演算过程。根据不同的构成和功能,自动机分成以下4种类型:有限自动机[finite automata,FA]、下推自动机[pushdown automata,PDA]、线性界限自动机[linear-bounded automata]和图灵机[Turing machine]。

 

9. CKY和Probabilistic CKY算法

解析:CYK算法是一种用来对上下文无关文法进行语法解析的算法,它是基于动态规划思想设计的一种自底向上语法解析算法。

说明:所有的Chomsky范式[Chomsky Normal Form,CNF]的文法都是上下文无关,反过来,所有上下文无关文法都可以有效的

变换成等价的Chomsky范式的文法。Probabilistic CKY算法是对原始CKY算法的改进。

 

10. 语法解析算法

解析:

[1]CKY算法:自底向上[从单词开始]。

[2]Earley算法:自顶向下[从S开始]。

 

11. 词形还原[Lemmatization]和词干提取[Stemming]

解析:词形还原是把一个任何形式的语言词汇还原为一般形式[能表达完整语义],而词干提取是抽取词的词干或词根形式[不一定能够表达完整语义]。词形还原和词干提取是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。如下所示:

[1]词形还原主要是采用保存某种字典的方式做这种转变。比如字典有"driving"到"drive","drove"到"drive","am,is"到"be"的映射等,做转变时查字典即可。

[2]词干提取主要是采用某种固定的算法来做这种缩减,比如去除"s",去除"ing"加"e",将"ational"变为"ate",将"tional"变为"tion"等。

 

12. 新词发现

解析:新词属于未登录词,但它和未登录词是不同的。从词典参照的角度来说,新词语是指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语。即鉴定新词语的参照系是现代汉语基本词汇的词形、词义和词语的用法。从时间参照角度来说,新词语是出现在某一时间段内或自某一时间点以来所首次出现的具有新词形、新词义或者新用法的词汇。从语言学角度来讲,汉语中的新词语按照来源大体可以分为几类,如下所示:

[1]命名实体,比如人名、地名、商品名、公司字号、机构名等;  

[2]缩略语,比如“非典”、“计生委”等;  

[3]方言词,比如“靓”、“埋单”等;   

[4]新造词,比如“伊妹儿”、“美眉”等;  

[5]专业术语,比如“非典型肺炎”、“蓝光光盘”等;

[6]音译词,比如“酷”、“秀”、“克隆”等;  

[7]字母词,比如WTO、APEC等;  

[8)词义、用法发生变化的旧有词语,比如“下课”、“充电”等。其中还包括一种“旧词新用”的语言现象,比如“高就”、“赏光”等,很长时间不用了,最近又重新出现在语言中。

说明:成词标准包括内部凝固程度和自由运用程度。

 

参考文献:

[1] CTB 6.0的标注体系:http://blog.sciencenet.cn/blog-39714-441127.html

[2] 语法解析:http://blog.csdn.net/lanxu_yy/article/details/37700841

[3] 概率上下文无关文法PCFG:http://blog.csdn.net/baimafujinji/article/details/6494489

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NLP工程化

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值