nlp
Tramp_fish
这个作者很懒,什么都没留下…
展开
-
文本预处理
1.利用正则表达式对去除非文本字符#u的作用 :后面的字符串以unicode格式进行编码,用在中文字符前面,防止因为源码存储格式导致使用时出现乱码import repattern = re.compile(u'[^a-zA-Z\u4E00-\u9FA50-9]')dissertation_title = "'Daddy's girls', 'degenerate daughters'...原创 2019-11-05 15:41:16 · 328 阅读 · 0 评论 -
python 3以上版本使用pickle.load读取文件报UnicodeDecodeError: 'ascii' codec can't decode byte 0x8d in position 1
源码中resource_val = pickle.load(opened_resource)改为resource_val = pickle.load(opened_resource,encoding='iso-8859-1')原创 2019-09-16 15:26:25 · 644 阅读 · 0 评论