COMS W4705: Natural Language Processing学习笔记(一)


Machine Translation(机器翻译)Information Extraction(信息提取),Text Summarization(文本归纳),Dialogue Systems (对话系统)

最基本的nlp问题叫做Tagging(词性标注)

1.语言建模问题

    一种简单的估计方法:



2.Trigram模型

       语言模型中使用最为广泛的模型叫做Markov模型

        在一个一阶马尔可夫链中,我们假设一个特定的概率只与它前面一个状态有关.

         二阶/三阶类似.

        N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。

        

        估计:


3.语言模型复杂度评估

      

估计方法:

Bias-Variance----简单的模型容易欠拟合,复杂的模型容易过拟合, 不能单单看perplexity来说一个模型的好坏


       3.1 线性插值法


        3.2 Discounting methods



        3.3 Katz Back-Off Models




  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值