记录处理自然语言数据集中全型字符的问题
记录处理自然语言数据集中全型字符的问题缘起全型字符unicode字符范围全型字符
缘起
进公司之后的第一个任务是处理一个大型自然语言数据集,处理成可用的格式,遇到了一些问题,在这里记录下来并给出解决方案。
全型字符unicode字符范围
全型字符真的是自然语言处理中很讨厌的东西,删除特殊字符的时候一不小心就会
除全型字母外的全型字符范围: ‘ff00’ - ‘ff20’, ‘ff3b’ - ‘ff41’, ‘ff60’ - ‘ffef’, ‘ff3b’ - ‘ff41’;
全型字母范围: ‘ff21’ -
原创
2020-09-04 17:23:26 ·
147 阅读 ·
0 评论