自然语言处理
nlp征途
这个作者很懒,什么都没留下…
展开
-
标注问题以及隐马尔可夫模型
简介序列标注问题:给定一个句子x1…xn,生成一个与之对应的序列y1…yn.如词性标注。 序列标注的目标是从训练数据中学习一个从句子到标注序列的映射。两种标注问题:词性标注和命名实体识别词性标注词性标注的一个难点是歧义。英文中的许多单词可以有不同的词性。另外一个问题是训练语料不可能穷尽所有的单词,如何确定训练语料中没出现过单词的词性同样值得研究。 词性标注时,有两种有用的信息值得考虑。第一是单个原创 2015-10-07 11:10:14 · 3366 阅读 · 0 评论 -
语言模型(langurage model)
语言模型只要是提到模型这个词,我就会感到很抽象,但是如果把它理解为一系列的函数或者映射,就会有更加直观的理解。对语言模型来说,输入就是一个句子,输出就是这个句子存在概率。这个从输到输出的函数,就可以认为是模型。 这是个人的不严谨的理解。 本博客的内容如下:简介马尔可夫模型三元语言模型(Trigram Language Model)平滑处理其他主题简介首先给定一个包含若干句子的语料库,定原创 2015-09-17 10:44:28 · 1049 阅读 · 0 评论