记录处理自然语言数据集中全型字符的问题

最新推荐文章于 2024-07-12 16:16:27 发布

lyc1201

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量147

点赞数

分类专栏： nlp 文章标签： python nlp

本文链接：https://blog.csdn.net/u013914886/article/details/108401119

版权

1 篇文章 0 订阅

订阅专栏

缘起

进公司之后的第一个任务是处理一个大型自然语言数据集，处理成可用的格式，遇到了一些问题，在这里记录下来并给出解决方案。

全型字符真的是自然语言处理中很讨厌的东西，删除特殊字符的时候一不小心就会

全型字符真的是自然语言处理中很讨厌的东西，删除特殊字符的时候一不小心就会删掉，会遗漏很多重要信息。这里记录一下对应关系和unicode值。以及python中如何进行转换。

def mapQuanxingABC(uchar):
    """将全型字母映射为普通字母"""
    return chr(ord(uchar)-65248)

全型字母	全型字母的unicode	普通字母	普通字母的unicode
Ａ	ff21	A	0041
Ｂ	ff22	B	0042
Ｃ	ff23	C	0043
Ｄ	ff24	D	0044
Ｅ	ff25	E	0045
Ｆ	ff26	F	0046
Ｇ	ff27	G	0047
Ｈ	ff28	H	0048
Ｉ	ff29	I	0049
Ｊ	ff2a	J	004a
Ｋ	ff2b	K	004b
Ｌ	ff2c	L	004c
Ｍ	ff2d	M	004d
Ｎ	ff2e	N	004e
Ｏ	ff2f	O	004f
Ｐ	ff30	P	0050
Ｑ	ff31	Q	0051
Ｒ	ff32	R	0052
Ｓ	ff33	S	0053
Ｔ	ff34	T	0054
Ｕ	ff35	U	0055
Ｖ	ff36	V	0056
Ｗ	ff37	W	0057
Ｘ	ff38	X	0058
Ｙ	ff39	Y	0059
Ｚ	ff3a	Z	005a
ａ	ff41	a	0061
ｂ	ff42	b	0062
ｃ	ff43	c	0063
ｄ	ff44	d	0064
ｅ	ff45	e	0065
ｆ	ff46	f	0066
ｇ	ff47	g	0067
ｈ	ff48	h	0068
ｉ	ff49	i	0069
ｊ	ff4a	j	006a
ｋ	ff4b	k	006b
ｌ	ff4c	l	006c
ｍ	ff4d	m	006d
ｎ	ff4e	n	006e
ｏ	ff4f	o	006f
ｐ	ff50	p	0070
ｑ	ff51	q	0071
ｒ	ff52	r	0072
ｓ	ff53	s	0073
ｔ	ff54	t	0074
ｕ	ff55	u	0075
ｖ	ff56	v	0076
ｗ	ff57	w	0077
ｘ	ff58	x	0078
ｙ	ff59	y	0079
ｚ	ff5a	z	007a

参考文章：https://blog.csdn.net/thomashtq/article/details/39081233

关注