HNC与语言学研究学术研讨会(第三届)简单记录(2)

      21号下午开始分为两个会场,由会议各个代表作报告。我有选择的听了一些,并没有记笔记。作为计算机出身的人员,一方面想多听学语言学的人的不同声音,另一方面又难以接受仅仅谈语言现象、未与机器处理相结合的报告。另外,做语音处理的报告也听得不太明白。

      从语言的层次来讲,在词一级做处理的关注了两个报告。

      北京邮电大学刘建毅作了报告《基于统计分类器的新词识别研究》。因为工作中也遇到了新词识别的问题,所以就关注了一下刘老师的研究思路。当然,他研究的新词也就是非专名的未登录词。就这个问题而言,刘老师觉得新词的识别也就是新词碎片的合与分的问题。他做了如下简单几个分类:

           (根据碎片字的个数)

            1+1;2+1;1+2;2+2;……

其中根据他的统计,“1+1”型与“2+1”型在全部类型中所占比列最大,约为84%。刘老师所用到的统计特征为:前字成词概率、后字成词概率、前字前位成词概率、后字后位成词概率以及共现概率。

     前些日子做短语处理的时候,也遇到了新词的识别与新词语义的确定。如例子:

             一种烤猪排、羊排、牛排的方法

目前我是通过短语的结构(内部概念之间的关系)来获取新词及其语义信息。例如这个例子会被程序分析为:[一种[烤[+ [猪排]、[羊排]、牛排]]的方法]。“[]”表示为一个结构单位,“+”表示该结构的子结构为并联关系(默认的为串联关系)。由分析结果可知,猪排、羊排在词库中都是没有收录的,但牛排是被收录的。由这个短语的结构我们可以确定猪排和羊排是和牛排对仗的概念,可以分别把单字碎片识别为新词。

     但这种方法还不够,尤其是短语结构本身很多时候也依赖新词识别的效果,比如科技新词参与的短语,新词碎片给短语识别带来了太大的压力。

      刘老师的思路有一定的启发。这个问题还要继续思考。

      武汉大学的吴泓渺教授(法语系)作了一个关于专业术语处理的报告。本来我对这个是更感兴趣的,只是时间关系,吴老师也没有来得及详细介绍他所考察的法国人的研究成果。模糊还记得有个等价语义条件的概念,好像是说专业术语在翻译时,同一概念在各种语言中可能并不时一一对应的,一种语言提出的概念,在另外一种语言中有时很难翻译,没有相应的表达。但这些词语之间总得需要进行映射,这其中就需要一个语义等价的概念或判定方法。这是我当时的一点个人理解,也不知曲解了吴老师的意思。后面的模型更是都没有记住;只好等论文集的出版了。

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页