一种快速的未登陆词识别方法(原理和实现)


一种快速的未登陆词识别方法(原理和实现) 一种快速的未登陆词识别方法(原理和实现)    
    最近网络上关于中文分词的算法已经很多了,在实际应用中每个人根据对中文分词的不同理解写了不同的中文分词算法,可谓百花齐放.
    但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉.

    算法的假设:     1. 未登陆词是由单字组成的;
    2. 如果一个字同时属于2个未登陆词,那么只选择第一被识别的词;

    测试文章:     最近电视剧大长今很火,我就选取了介绍大长今的文章,
    地址:http://www.360doc.com/showWeb/0/0/18183.aspx
    识别结果如下:
        PDH : initialize phrase dictionary
        QuerySpliter reInitialize dictionary.
        长今,职场,闵政浩,韩剧,郑云白,连生,主簿,冷庙高香,义字,医女,张德,剩者,济州,选拨,文秘

    算法原理:     首先找出已经分词后的单字,然后查看单字的下一个是否还是单字,如果是,判断这种情况出现的次数,如果超过预订的阀值,那么就确认这是一个新词.
    下面是一个算法的计算过程展示:
    PDH : initialize phrase dictionary
    QuerySpliter reInitialize dictionary.
    >>>8,9;9,10
    长今
    >>>237,238;238,239
    职场
    >>>595,596;596,597;597,598
    闵政浩
    >>>189,190;190,191
    韩剧
    >>>1111,1112;1112,1113;1113,1114
    郑云白
    >>>599,600;600,601
    连生
    >>>610,611;611,612
    主簿
    >>>975,976;976,977;977,978;978,979
    冷庙高香
    >>>1233,1234;1234,1235
    义字
    >>>559,560;560,561
    医女
    >>>561,562;562,563
    张德
    >>>3114,3115;3115,3116
    剩者
    >>>534,535;535,536
    济州
    >>>580,581;581,582
    选拨
    >>>2071,2072;2072,2073
    文秘
    本算法是在:小叮咚分词的基础上进行的.
    欢迎大家一起交流,改进这个算法.

转载于:https://www.cnblogs.com/webcool/archive/2005/12/28/306708.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值