UnicodeDecodeError: 'shift_jis' codec can't decode byte 0x93 in position 4: illegal multibyte sequen

最新推荐文章于 2024-08-23 07:53:57 发布

柔情岁月-万圣节

最新推荐文章于 2024-08-23 07:53:57 发布

阅读量1.1k

点赞数

分类专栏： python 问题

本文链接：https://blog.csdn.net/redhat1986/article/details/103688972

版权

本文讲述了在使用mecab进行日语分词时遇到的UnicodeDecodeError，该错误源于编码问题。作者分析了问题并指出错误并非由Python文件的UTF-8设置引起，而是系统编码。解决方案是确定mecab的安装位置，并在Python脚本中指定正确的编码方式。

摘要由CSDN通过智能技术生成

背景
今天想找个日语的分词工具，就看到了mecab，然后就在网上找到了相关的示例，运行一下各种报错。
先后安装的包有：

pip install mecab-python-windows
pip install mecab-python3
pip install mecab
pip install whoosh
Microsoft Visual C++ Build Tools": https://visualstudio.microsoft.com/downloads/
pip install tiny_tokenizer[all]

pip install SudachiPy
pip install https://object-storage.tyo2.conoha.io/v1/nc_2520839e1f9641b08211a5c85243124a/sudachi/SudachiDict_core-20191030.tar.gz

sudachipy link -t core

pip install -U pytest

错误信息

 return self.__parse_tostr(text, **kwargs)
  File "C:\Users\lixianwei\venv\lib\site-packages\natto\mecab.py", line 318, in __parse_tostr
    return self.__bytes2str(raw).strip()
  File "C:\Users\lixianwei\venv\lib\site-packages\natto\support.py", line 26, in bytes2str
    return b.decode(py3enc)
UnicodeDecodeError: 'shift_jis' codec can't decode byte 0x93 i