UnicodeDecodeError: 'shift_jis' codec can't decode byte 0x93 in position 4: illegal multibyte sequen

本文讲述了在使用mecab进行日语分词时遇到的UnicodeDecodeError,该错误源于编码问题。作者分析了问题并指出错误并非由Python文件的UTF-8设置引起,而是系统编码。解决方案是确定mecab的安装位置,并在Python脚本中指定正确的编码方式。
摘要由CSDN通过智能技术生成
  1. 背景
    今天想找个日语的分词工具,就看到了mecab,然后就在网上找到了相关的示例,运行一下各种报错。
    先后安装的包有:
pip install mecab-python-windows
pip install mecab-python3
pip install mecab
pip install whoosh
Microsoft Visual C++ Build Tools": https://visualstudio.microsoft.com/downloads/
pip install tiny_tokenizer[all]

pip install SudachiPy
pip install https://object-storage.tyo2.conoha.io/v1/nc_2520839e1f9641b08211a5c85243124a/sudachi/SudachiDict_core-20191030.tar.gz

sudachipy link -t core

pip install -U pytest


  1. 错误信息
 return self.__parse_tostr(text, **kwargs)
  File "C:\Users\lixianwei\venv\lib\site-packages\natto\mecab.py", line 318, in __parse_tostr
    return self.__bytes2str(raw).strip()
  File "C:\Users\lixianwei\venv\lib\site-packages\natto\support.py", line 26, in bytes2str
    return b.decode(py3enc)
UnicodeDecodeError: 'shift_jis' codec can't decode byte 0x93 i
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值