记录处理自然语言数据集中全型字符的问题

记录处理自然语言数据集中全型字符的问题

缘起

进公司之后的第一个任务是处理一个大型自然语言数据集,处理成可用的格式,遇到了一些问题,在这里记录下来并给出解决方案。

全型字符unicode字符范围

全型字符真的是自然语言处理中很讨厌的东西,删除特殊字符的时候一不小心就会

  1. 除全型字母外的全型字符范围: ff00-ff20, ff3b-ff41, ff60-ffef, ff3b-ff41;
  2. 全型字母范围: ff21-ff3a, ff41-ff5a;

全型字符

全型字符真的是自然语言处理中很讨厌的东西,删除特殊字符的时候一不小心就会删掉,会遗漏很多重要信息。这里记录一下对应关系和unicode值。以及python中如何进行转换。

def mapQuanxingABC(uchar):
    """将全型字母映射为普通字母"""
    return chr(ord(uchar)-65248)
全型字母全型字母的unicode普通字母普通字母的unicode
ff21A0041
ff22B0042
ff23C0043
ff24D0044
ff25E0045
ff26F0046
ff27G0047
ff28H0048
ff29I0049
ff2aJ004a
ff2bK004b
ff2cL004c
ff2dM004d
ff2eN004e
ff2fO004f
ff30P0050
ff31Q0051
ff32R0052
ff33S0053
ff34T0054
ff35U0055
ff36V0056
ff37W0057
ff38X0058
ff39Y0059
ff3aZ005a
ff41a0061
ff42b0062
ff43c0063
ff44d0064
ff45e0065
ff46f0066
ff47g0067
ff48h0068
ff49i0069
ff4aj006a
ff4bk006b
ff4cl006c
ff4dm006d
ff4en006e
ff4fo006f
ff50p0070
ff51q0071
ff52r0072
ff53s0073
ff54t0074
ff55u0075
ff56v0076
ff57w0077
ff58x0078
ff59y0079
ff5az007a

参考文章:https://blog.csdn.net/thomashtq/article/details/39081233

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值