- 博客(6)
- 收藏
- 关注
原创 N元模型
设wi是文本中的任意一个词,如果已知它在该文本中的前两个词 wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:
2005-12-31 17:23:00 3095
原创 HNC与语言学研究学术研讨会(第三届)简单记录(4)
2005年的最后一天,把这篇简单记录补上。内容主要是关于北京邮电大学钟义信教授的全息自然语言理解与机器认知研究和上海交通大学陆汝占教授的对于搜索引擎的思考两篇主题报告。这两篇报告本来是要在开幕式上做的,因时间关系被推到了闭幕式上。 钟教授原来是做信息论的,由于申氏信息论只研究信息传输过程中噪声环境的处理,并不涉及信息的理解,所以钟先生主张从语法、语义和语用三个角度来考察信息,也
2005-12-31 14:08:00 1771
原创 HNC与语言学研究学术研讨会(第三届)简单记录(3)
在语言层面上,关于短语处理的文章很少。自己去年一年都在做这方面的工作,可因为忙着用短语处理的结果参加现在单位搜索引擎的研发,竟然一直没有能够对短语处理作一个总结,心里有点遗憾。这次只是匆忙的整理了短语处理中歧义分析的一个点——形容词与两名词组合搭配的歧义结构来参加这次会议(不过从合作者唐和晋老师那里学到不少东西)。 相比而言,关于处理句子的报告却不少。从华中师范大学的报告来看,
2005-12-23 17:14:00 1376 1
原创 HNC与语言学研究学术研讨会(第三届)简单记录(2)
21号下午开始分为两个会场,由会议各个代表作报告。我有选择的听了一些,并没有记笔记。作为计算机出身的人员,一方面想多听学语言学的人的不同声音,另一方面又难以接受仅仅谈语言现象、未与机器处理相结合的报告。另外,做语音处理的报告也听得不太明白。 从语言的层次来讲,在词一级做处理的关注了两个报告。 北京邮电大学刘建毅作了报告《基于统计分类器的新词识别研究》。因为工作中也遇
2005-12-23 13:19:00 1514
原创 HNC与语言学研究学术研讨会(第三届)简单记录(1)
2005年12月21-22日,HNC与语言学研究学术研讨会(第三届)在北京师范大学召开。这次会议由三家单位共同发起举办:中科院声学所、北京师范大学和大正语言知识处理研究院。笔者有幸参加这次会议,连夜在此做一简单记录;当然,关注点是笔者所认同的、感兴趣的报告精简内容。开幕式发言与报告 北京大学陆俭明教授 这是笔者所喜欢的第一个发言,以前只是闻其名,现在才看到陆先生原来
2005-12-22 20:03:00 1495
原创 令人头疼的科技短语处理
现在的搜索项目中使用了以前短语处理的研究成果,以之来分析标题并进行索引与搜索.但由于处理对象中包含大量科技新词,且部分短语也不太规范,使得测试过程中发现了较多问题.其中最头疼的是,100万条短语的测试语料中,有如下语料使得短语分析软件陷入死锁.呜呼悲惨~如何修正算法? 院里的分词算法太简单,没有未登录词与新词识别的模块,这对短语处理软件造成的压力实在太大.由一个充电电池和一个
2005-12-05 15:37:00 2709 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人