中文字符分字处理工具

中文字符分字处理工具,将字符进行分字处理,字符与字符以空格隔开,如:我是一名小学生 处理后:我 是 一 名 小 学 生
如需要为bert模型处理分字,请看bert分词工具-使用Bert自带的WordPiece分词工具将文本分割成单字

input:

北京时间318日,布鲁克林篮网队今天宣布球队里有4名球员的新冠病毒检测结果呈阳性。
篮网队在声明里没有透露这4名球员的名字,但是指出其中1名球员出现了新冠病毒的症状,另外3名球员无症状。
与此同时,篮网队表示他们正在通知任何与这些球员接触过的人,包括最近的对手。
值得一提的是,NBA无限期停赛之前,篮网的最后一个对手是湖人。
篮网队在声明中还表示,球队里的所有球员目前都在隔离,而且与队医保持密切沟通。
截至目前,已经有7名NBA球员被确诊新冠肺炎。

output:

北 京 时 间 31 8 日 , 布 鲁 克 林 篮 网 队 今 天 宣 布 球 队 里 有 4 名 球 员 的 新 冠 病 毒 检 测 结 果 呈 阳 性 。 
篮 网 队 在 声 明 里 没 有 透 露 这 4 名 球 员 的 名 字 , 但 是 指 出 其 中 1 名 球 员 出 现 了 新 冠 病 毒 的 症 状 , 另 外 3 名 球 员 无 症 状 。 
与 此 同 时 , 篮 网 队 表 示 他 们 正 在 通 知 任 何 与 这 些 球 员 接 触 过 的 人 , 包 括 最 近 的 对 手 。 
值 得 一 提 的 是 , N B A 无 限 期 停 赛 之 前 , 篮 网 的 最 后 一 个 对 手 是 湖 人 。 
篮 网 队 在 声 明 中 还 表 示 , 球 队 里 的 所 有 球 员 目 前 都 在 隔 离 , 而 且 与 队 医 保 持 密 切 沟 通 。 
截 至 目 前 , 已 经 有 7 名 N B A 球 员 被 确 诊 新 冠 肺 炎 。 

代码:

'''
将字符进行分字处理,字符与字符以空格隔开,如:中华人民共和国 处理后:中 华 人 民 共 和 国
Author:西兰
Date:2020-03-18
'''


def write2txt(outfile, line):
    with open('./' + outfile, 'a', encoding='utf-8')as f1:
        f1.write(line + '\n')


def word_spilt(infile, outfile):
    with open('./' + infile, 'r', encoding='utf-8')as f1:
        for line in f1.readlines():
            print(line.strip())
            word_list = list(line.strip())
            text = ''
            for i in range(len(word_list)):
                text += str(word_list[i]) + ' '
            print(text)
            write2txt(outfile, text)


word_spilt('data.txt', 'out.txt')

关注以下公众号,一起玩啊~
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值