《数学之美》第22章 自然语言处理的教父马库斯和他的优秀弟子们

1 教父马库斯

    马库斯发现存在两大难题:可以用于研究的统计数据明显不够;其次,各国科学家因为使用的数据不同,论文里发表的结果无法互相比较。

    马库斯比很多同行更早地发现了建立标准语料库在自然语言处理研究中的重要性。建立了数百个标准的语料库组织(LDC)。

    马库斯的主张一贯是建立几个世界上最好的专业。而不是专业最齐全的系。

2 从宾夕法尼亚大学走出的精英们

    2.1 柯林斯:追求
        柯林斯成功的关键在于将文法分析的每一个细节都研究得很仔细。
    2.2 布莱尔:简单才美

        布莱尔的成名作是基于变换规则的机器学习方法。

            1. 把每个拼音对应的汉字中最常见的找出来作为第一遍变换的结果,当然结果有不少错误。比如,“常识”可能被转换成“长识”;

            2. 可以说是“去伪存真”,用计算机根据上下文,列举所有的同音字替换的规则。

            3. “去粗存精”,将所有的规则应用到事先标识好的语料库中,挑出有用的,删除无用的。然后重复二三步,直到找不出有用的为止。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值