最近,做NLP时,需要做一个词典,直接使用了有道开放的API完成工作,但输出的过程中,对齐成了一个麻烦!
特别是对于对齐数据既有中文又英文,麻烦就加大了,牵扯到中英文对齐的问题。
这个时候,就得借助伟大的度娘了。
从字符串的长度来看,一个汉字的长度为1,但是一个汉字却是两位占位符的大小,假如字符串包含汉字,而将字符
串的长度当做字符串的占位符来处理,那么是无法实现对齐的,因为这种处理方式将本是两个占位符的汉字按只占一
最近,做NLP时,需要做一个词典,直接使用了有道开放的API完成工作,但输出的过程中,对齐成了一个麻烦!
特别是对于对齐数据既有中文又英文,麻烦就加大了,牵扯到中英文对齐的问题。
这个时候,就得借助伟大的度娘了。
从字符串的长度来看,一个汉字的长度为1,但是一个汉字却是两位占位符的大小,假如字符串包含汉字,而将字符
串的长度当做字符串的占位符来处理,那么是无法实现对齐的,因为这种处理方式将本是两个占位符的汉字按只占一