sinboy的菜地

一份耕耘,一份收获

张新波ID:sinboy
83205次访问,排名1114好友4人,关注者25
sinboy的文章
原创 49 篇
翻译 0 篇
转载 2 篇
评论 106 篇
sinboy的公告

喜欢中文分词技术的朋友请入http://groups.google.com/group/ictclas

最近评论
yuzishui:呵呵,都是要源码的。
谢谢您的知识.
也希望您能坚持下去.
支持.
周梁:怎么就这两句话?赶紧加强啊。
xazl.ia.ac.cn@gmail.com
周梁:我刚开始看,这里我觉得楼主可能没有理解,
作者的原意是为了防止权重相同的节点,<判断就是和=判断区别开,如果出现=,i就不会增加,继续会在这个权重下面进行插入父节点。呵呵。
可以参考他的论文一段话:

如果两条或两条以上路径长度相等,那么他们的长度并列第i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于或等于N。
houlc:我的邮箱是houlc@foxmail.com
houlc:你能发给我一份吗,我也想在项目中使用log4j,想参考参考你是怎么用的.
文章分类
收藏
    相册
    IO
    TPTP
    友情链接
    DanceFire的BLOG
    Justin的BLOG
    Martin Fowler
    博客园设计模式
    吕震宇的BLOG
    存档
    软件项目交易
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes

    原创 ICTCLAS分词系统研究(十)--后记收藏

    新一篇: BugFree缺陷管理工具新手入门 | 旧一篇: ICTCLAS分词系统研究(九)--对最终结果做优化调整

         FreeICTCLAS中文分词系统从2006年3月就开始接触,之后通过研读相关论文和源代码,写了一系列的学习笔记,给很多同样的中文分词爱好者提供了一个可参考的文档资料。但因为工作及其它原因(嘿嘿,说白就了就是比较偷懒,没有坚持下去),把该项目做成一个java版的原始想法一度中断。之后,也曾多次尝试重新拾起,完成我的一个心愿,但复杂的工作都让我半途而费。
           4月份的时候,一个爱好才MSN上问我相关问题,又激起了我的原始想法,同时看到吕震宇老师只用了半个月的时间就完成了C#版本的工作,并且写了完成的系列文章,又大大刺激我的神经。想想我的系列文章只到半道,ictclas4j的程序也是半拉子工程,真是惭愧之极。于是下定决定,一定要把这个项目完成,给自己也给关心ictclas的朋友一个交待。
           经过三个星期的不懈努力,到现在为止,基本上完整的实现了原FreeICTCLAS所实现的功能。原VC++实现的程序比我想象的更复杂,中间涉及大量的临时性的数据结构和大量的全局变量,搞的我非常头大,好几次都有放弃的想法。不过谢天谢地,我这次终于坚持下来了。从java程序的角度从出,我对原来的数据结构做了大量调整和优化,去掉了很多不必要的中间变量。经过优化后,在整个分词过后中只用到两个对象:Atom、SegNode,原子和分词结点,整个分词过程就是对SegNode的不断调整和改进,最终得到分词结果。
         因为到现在为止,我只是做了一些简单的测试,可能还有很多的BUG在里面(对标点符号的处理就是一问题),并且分词的速度还远远达不到我的要求,程序还有很多改进的地方,所以暂时源代码还不会放上来,但我想最迟一个星期之内,我可以上传到论坛供大家测试。同时,我已在Google Code上申请了ictclas4j的开源项目,期望有兴趣的朋友加入进来共同改进。
         再次感谢张华平、刘群老师,你们的杰作ICTCLAS分词系统给国内的自然语言研究提供了一个很好的入门工具。也非常感谢吕震宇、DanceFire精辟入理的相关分析文章!
    相关参考:

     ICTCLAS分词系统论坛组:http://groups.google.com/group/ictclas

    ICTCLAS for java研究,sinboy的BLOG:http://blog.csdn.net/sinboy/category/207165.aspx

    ICTCLAS for C#研究,吕震宇的BLOG:http://www.cnblogs.com/zhenyulu/category/85598.html

    DanceFire的专栏:http://blog.csdn.net/DanceFire/category/294373.aspx

    ICTCLAS的老家:http://www.i3s.ac.cn/index.htm

    ICTCLA4J开源项目:http://code.google.com/p/ictclas4j/

    发表于 @ 2007年06月04日 14:25:00|评论(loading...)|编辑

    新一篇: BugFree缺陷管理工具新手入门 | 旧一篇: ICTCLAS分词系统研究(九)--对最终结果做优化调整

    评论

    #ph.lemon@gmail.com 发表于2007-06-13 09:24:58  IP: 219.237.201.*
    感谢你的努力。我也受益了。周末吧,我把我改的地方贴出来,拿出来和大家一起讨论一下必要性。
    #pope0805@gmail.com 发表于2007-06-20 16:36:16  IP: 219.239.227.*
    感谢!
    才看到你的工作,准备好好研究一下。
    祝你顺利!
    发表评论  


    登录
    Csdn Blog version 3.1a
    Copyright © sinboy