LingPipe
u010157717
这个作者很懒,什么都没留下…
展开
-
《NLP with LingPipe》2.4 CrossValidation
交叉验证将语料库分成大致相等的几部分,称为fold。将其中的一份作为测试数据,其余部分作为训练数据。 典型的fold数量为10,也就是90%的数据为训练数据,10%为测试数据。 fold数量在构造函数中设置。 默认取第0份fold为测试数据,可以通过setFold来修改。 package chapter2; import java.util.Set; import java.util.原创 2013-04-07 10:04:49 · 526 阅读 · 0 评论 -
Process Language Model
Language Model分为两种,Process Language Model跟Sequence Language Model。 Sequence Language Model:所有长度的字符串所有的可能性,概率和为1. Process Language Model:对于任何一种长度的字符串所有的可能性,概率和为1. 这里,有个基于LingPipe的NGramProcessLM例程,演示原创 2013-04-21 07:34:27 · 854 阅读 · 0 评论 -
canterbury corpus
《Text Analysis with LingPipe 4》书中第6章6.9节Learning Curve Evaluation中用到了canterbury corpus. 可以从这里下载 http://corpus.canterbury.ac.nz/resources/cantrbry.zip原创 2013-04-22 07:48:45 · 525 阅读 · 0 评论 -
NLP tagger
Hidden Markov model: other are Maximum Entropy Markov Models or Conditional Random Fields.原创 2014-06-10 14:33:57 · 610 阅读 · 0 评论