公布硕士论文最新进展二(2007.3.19)

我作的论文主要是信息检索用汉语分词算法研究以及实现汉语分词系统。
    最近几天主要工作及进展:
        浏览大量的期刊论文以及硕博士论文   60%
        对自适应汉语分词算法进行相关的改进 80%
        分词系统的整体设计                 30%
        硕士论文撰写                       1% 

        总体进度                           20%

近两个星期主要完成自适应分词算法的改进,改进后的效果还是鼓舞人心的:
1)分词的准确率:由于算法结构已框定,只能着重去考虑在此结构下,如何能解决识别未登录词与分词歧义伴生的这对矛盾体,即在能够尽量准确地识别未登录词的同时,避免由此产生的切分歧义;或是由切分歧义造成的错误识别未登录词。
2)分词的速率:由于开发语言为C#,效率上相比较C++吃了不少的亏。但是在算法的很多细节上的改进,还是可以给效率带来飞跃,尤其是在改善词表结构后,速率已基本能达到实用水平(50Kb/s左右)。
3)分词词典的重构:除了对分词速率的提升,对于词典本身的更新维护也至为重要。
4)分词模块的扩展性以及可移植性;(还在进行中)

体会到两点:
1)一个实用的分词模块在分词算法以及整个模块的算法结构的考量上至关重要。
2)很多的基础以及基础实验工作还是必要的,有付出必有回报。

转载于:https://www.cnblogs.com/CampFeather/archive/2007/03/19/679455.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值