【分词】最大正向匹配算法及demo

最大匹配算法作为分词的最初级分词算法,作为学习,简单实现一下。

流程图:

def tokenize(line, dic, max_length = 5):
    line = line.strip()
    if line == '':
        return []
    if max_length >= len(line):
        return [line]
    token_list = []
    matched = False
    while line != '':
        for i in range(max_length,1,-1):
            word = line[:i]
            if word in dic:
                token_list.append(word)
                line = line[i:]
                matched = True
                break
        if not matched:
            word = line[0]
            token_list.append(word)
            line = line[1:]
    return ' '.join(token_list)


if __name__ == '__main__':
    dic = {'姚明':1,'姚':1,'明':1,'喜欢':1,'打篮球':1,'打':1,'篮球':1}
    line = '姚明喜欢打篮球'
    res = tokenize(line,dic)
    print(res)

输出为:

姚明 喜欢 打篮球

作为学习,先简单实现一下,后期不断丰实。

todo:
1. 停用词
2. 中文和其他字符混合
3. 有日期、时间、url等tag的特殊情况,需要用正则去匹配处理

在找工作的黄金时期,虽然应该疯狂的去面试提升自己,但是感觉抽时间去实现一些基础算法,巩固硬实力也是非常重要的。

看了不一定是会了,但是自己动手写一遍,并运行通过了才是会了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值