问题背景
尝试使用nltk的语料库阅读器查看自己建立的文本时,遇到错误,完整的错误信息如下:
错误的字面意思是说,这是一个语法错误,发生了编码错误,无法解码位置2-3中的字节:截断的\ UXXXXXXXX转义。
问题分析
windows的路径分隔符向来和Unix系的格格不入,这也是一大bug制造机。通常'\'叫做反斜线,是被当做转义符使用的,而'/'叫做斜线,常被用于表示路径,例如你可以将目光转向上面浏览器的地址栏,可以发现网址也是使用‘/’作为路径分割的。
解决方法
明白问题所在就大致猜到解决方法。
方法一:将反斜线'\'转义,如下:C:\\Users\\just_tinking\\Desktop\\my_file
方法二:使用通用的路径分隔符
方法三:字符串前加r,告诉解释器不对字符串进行转义操作,而是保持文本字面意思