由于中文使用utf-8编码时,编码可用的位数有限,所以并不能针对所有中文汉字进行编码。
中文汉字大约有五六万个(具体我也不清楚),但是utf-8编码的中文汉字好像只有两万字左右,因此,大量比较生僻的汉字未能编码,所以,处理包含这些字符的文本时,可能出错,但是没有办法,直接删除掉那些语句就OK了。或者也可以将编码改为Unicode。
由于中文使用utf-8编码时,编码可用的位数有限,所以并不能针对所有中文汉字进行编码。
中文汉字大约有五六万个(具体我也不清楚),但是utf-8编码的中文汉字好像只有两万字左右,因此,大量比较生僻的汉字未能编码,所以,处理包含这些字符的文本时,可能出错,但是没有办法,直接删除掉那些语句就OK了。或者也可以将编码改为Unicode。