外文翻译_Chinese Word Segmentation at Peking University

 

                                          Chinese Word Segmentation at Peking University

                                                             北京大学的中文分词研究

                                    Duan Huiming    Bai Xiaojing    Chang Baobao    Yu Shiwen

                                    Institute of Computational Linguistics, Peking University

                                                             北京大学计算语言研究所

                                               {duenhm, baixj, chbb, yusw}@pku.edu.cn

 

 

 

 

 

                                                                        Abstract

        Word segmentation is the first step in Chinese information processing, and the performance of the segmenter, therefore, has a direct and great influence on the processing steps that follow. Different segmenters will give  different results when handling issues like word boundary. And we will present in this paper that there is no need for an absolute definition of word boundary for all segmenters, and that different results of segmentation shall be acceptable if they can help to reach a correct syntactic analysis in the end.

 

Keyword: automatic Chinese word segmentation, word segmentation evaluation, corpus, natural language processing

 

 

摘要:分词是汉语信息处理的第一步,因此分词的结果的好快直接重大影响到接下来的处理过程。不同的分词方法当处理不同的问题——比如词边界——时会给出不同的结果。在这篇论文中,我们要表达这样观点,所有的分词方法不需要有明确的词边界。当最终结果能够做到正确的语法分析,任何不同的分词结果都应该是可以接受的。

 

关键词:自动化中文分词,分词评估,资料文献,自然语言

 

 

 

                                                                        1. Introduction

      On behalf of the Institute of Computational Linguistics, Peking University, we would like to thank ACL-SIGHAN for sponsoring the First International Chinese Word Segmentation Bakeoff, which provides us an opportunity to present our achievement of the past decade.

      We know for sure that it is very difficult to settle on a scientific and appropriate method of evaluation, and it might be even more difficult than word segmentation itself. We are also clear that each step in Chinese information processing requires great efforts, and a satisfactory result in word segmentation, though critical, does not necessarily guarantee good results in the following steps.

      From the test results of this evaluation, we are very gratified to see that we have done a good job both as a test corpus provider and as a participant. According to the rule, we did not test on the corpus we provided, but it is quite

encouraging that our supply tops the test corpus list to be elected by other participants. Section 2 and Section 3 describes our work in the Bakeoff as the test corpus provider and the participant respectively.

 

                                                                      一. 引言

     代表北京大学计算语言研究所,我们想要感谢ACL-SIGHAN(具体还没弄清),它发起第一届国际中文分词活动——Bakeoff,这个活动为我们提供了展现我们过去10年所作工作的机会。

     我们肯定都知道,设计一个科学有效地中文分词方法是非常困难的,这种困难有时甚至会比分词本身更难。我们也清楚,中文信息处理的每一步都需要付出巨大的努力。并且一个在分词中的满意结果,尽管严格,但没有必要保证在接下来的步骤中会有好的结果。

     从评估的测试结果来看,我们非常高兴看到我们在作为测试文献资料提供者和和参与者两方面都做得不错。根据规则,我们不测试自己提供的测试资料,但当我们提供的资料文献被其他参赛者排在前列时,我们是非常兴奋的。在单元1和单元2中,描述了我们依次作为测试资料提供者和参赛者,在Bakeoff活动中所作的工作。

 

 

                                                              2. The test corpus provider

 2.1 Corpus

The corpus we provided to the sponsor

includes:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值