Python 统一地铁线路名称

最近在做一个文本挖掘项目时遇到一个很实际的问题:文本里对地铁线路名称的表述很杂乱,如何统一。

比如,地铁1号线,可能表述为1号线、地铁1号线、轨道1号线、轨道交通1号线、1号地铁、一号线、地铁一号线、轨道一号线、轨道交通一号线、一号地铁,想统一为“地铁1号线”。

前提是要先建立一个地铁线路名称词典,把上述可能的线路名表述都纳入,用来准确分词。

import jieba # 分词
from fnmatch import fnmatch # 通配符

# 定义函数,用来统一地铁线路名称格式
# 投入参数是一个已经分好词的列表,返回一个处理好的字符串
def unify_line_name(mylist):
    num_dict = {1:'一', 2:'二', 3:'三', 4:'四', 5:'五', 6:'六', 7:'七', 8:'八', 9:'九', \
               10:'十', 11:'十一', 12:'十二', 13:'十三', 14:'十四', 15:'十五', 16:'十六', 17:'十七', \
               18:'十八', 19:'十九', 20:'二十', 21:'二十一', 22:'二十二', 23:'二十三'}
    for i in range(len(mylist)):
        if fnmatch(mylist[i], "*号线") or fnmatch(mylist[i], "*号地铁"):
            # 数字必须从大到小倒着遍历,否则影响后面in判断,
            # 比如“二十三”,二、十、三、二十、十三都包含在字符串内,
            # 所以要倒着遍历,先识别匹配最大的数字就不会错了,最后别忘了break跳出循环
            for j in range(len(num_dict),0,-1):
                if str(j) in mylist[i] or num_dict[j] in mylist[i]:
                    mylist[i] = "地铁" + str(j) + "号线"
                    break
    return ' '.join(mylist)
# 加载自定义的线路名称词典
jieba.load_userdict("mydict_line.csv")
# 原始字符串
mystr = "可是地铁四号线车厢太挤了"
# 分词
mylist = jieba.lcut(mystr, cut_all = False)
print(mylist)
# 用函数处理线路名称
mystr_new = unify_line_name(mylist)
print(mystr_new)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值