torchtext:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x80 in position 37: invalid start byt

Chatopera 研发团队

于 2025-04-17 18:49:42 发布

阅读量337

点赞数 2

CC 4.0 BY-SA版权

文章标签： PyTorch AI torchtext dataset

本文链接：https://blog.csdn.net/samurais/article/details/147311770

使用 torchtext.datasets 下载数据的时候，

import torchtext.datasets as datasets
    # downloaded to C:\Users\Administrator\.cache\torch\text\datasets\Multi30k automactically.
    train_iter, valid_iter, test_iter = datasets.Multi30k(
        language_pair=("de", "en")
    )

遇到错误：

  File "C:\devel\Python\Python311\Lib\site-packages\torchdata\datapipes\iter\util\plain_text_reader.py", line 62, in decode
    yield from stream
  File "C:\devel\Python\Python311\Lib\site-packages\torchdata\datapipes\iter\util\plain_text_reader.py", line 54, in strip_newline
    for line in stream:
  File "C:\devel\Python\Python311\Lib\site-packages\torchdata\datapipes\iter\util\plain_text_reader.py", line 45, in skip_lines
    yield from file
  File "C:\devel\Python\Python311\Lib\site-packages\torch\utils\data\datapipes\utils\common.py", line 368, in __iter__
    yield from self.file_obj
  File "<frozen codecs>", line 322, in decode
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 37: invalid start byte

解决方案：

cd C:\Users\Administrator\.cache\torch\text\datasets\Multi30k
tar -zxvf mmt16_task1_test.tar.gz # my solution to fix the error

参考：

https://github.com/pytorch/text/issues/2221

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Chatopera 研发团队

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

参与评论您还未登录，请先登录后发表或查看评论

博客

《春松客服大讲堂》全面解读春松客服技术栈，掌握 Java 开发开源客服系统 | Chatopera

11-28

2413

春松客服大讲堂???? 春松客服大讲堂，面向开发者、软件工程师及运维人员的在线课程。基于春松客服定制客服系统，紧紧围绕春松客服开发技能由浅入深的介绍春松客服上线智能客服系统、运营客服工作全面介绍春松客服插件、机器人客服的等原理和使用春松客服大讲堂 2019课件仓库，以下为课程详细目录：章小节时长（时:分:秒）课件一、春松客服的介绍如何使用Java开发智能客服系统 00:32:11 PPT

博客

春松客服：做好开源客服系统 | Chatopera

11-04

1575

春松客服：做好开源客服系统 | Chatopera 前往 Bilibili 观看春松客服项目地址春松客服是 Chatopera 发布的开源免费的智能客服系统。在 Chatopera，我们相信：越是重视客户服务，越是好的企业 / the more you care about your customers, the better income you earn in return。...

博客

智能对话机器人之多轮对话工作机制 | Chatopera

08-19

7204

目录https://bot.chatopera.comChatopera 多轮对话工作机制多轮对话的定义什么场景下使用多轮对话Chatopera 多轮对话知识库意图识别脚本对话多轮对话的检索模块间检索创建脚本对话的话题话题检索顺序对话状态机擦除状态使用函数切换状态知识库路由总结下一步Chatopera 为开发者提供工具，低代码或无代码上线聊天机器人。https://bot.chatopera.com本文内容节选自 Chatopera 文档中心:https://docs.chatopera.com/pr

博客

迭代客服系统，助力企业成长，春松客服 v10 全新发布 | Chatopera

09-19

324

2018 年 11 月份，Chatopera 发布了春松客服 v3，之所以是 v3，是因为我们的基础代码来自于优客服开源码 v2，至今已经过去了 7 年，在 7 年中，Chatopera 以及春松客服开源社区不断的优化这套开源客服系统，但是因为开发架构、业务功能受历史影响，有很多弊端，2023 年，我们考虑开发一个全新的客服系统，用更新的技术架构，更有效率的开发工具，开发出帮助企业更好的适应互联网及人工智能时代的客服系统，这一想法催生了今天我们发布的春松客服 v10。

博客

智能体开发，实现自定义知识库，基于 LangChain，qwen 7b, ollama, chatopera | LLMs

06-07

726

【代码】智能体开发，实现自定义知识库，基于 LangChain，qwen 7b, ollama, chatopera | LLMs。

博客

build Agent Services by integrating chatopera cloud services with langchain via tool calling | LLMs

06-07

442

【代码】build Agent Services by integrating chatopera cloud services with langchain via tool calling | LLMs。

博客

利用 Synonyms 中文近义词库调优 RAG 服务，基于 Ollama, DeepSeek R1, Langchain

05-30

631

作为比对，只是更新了 Embeddings 类，而其它代码均不变。这意味着，大模型、参数、知识库文件等都是相同的。本文介绍，在基于 RAG 服务实现问答的过程中，使用两种 Embeddings 模式下，处理。PDF 文件中，有一些地方表明了项目的负责人是张笑，但是需要模型的推理能力才能回答。给出了正确答案：项目负责人是张笑。

博客

中文词嵌入，Embeddings with Chatopera Synonyms for chatbot, RAG. | LLMs

05-30

380

【代码】中文词嵌入，Embeddings with Chatopera Synonyms for chatbot, RAG. | LLMs。

博客

llm-get-started: 大语言模型快速开始

05-29

609

【代码】llm-get-started: 大语言模型快速开始。

博客

DeepSeek R1 7b，Langchain 实现 RAG 知识库 | LLMs

04-20

678

GitHub。

博客

Transformer：Attention is All You Need 代码实现，训练和测试 | PyTorch 深度学习实战

04-20

557

【代码】Transformer：Attention is All You Need 代码实现，训练和测试 | PyTorch 深度学习实战。

博客

关于图片分类任务的猜想 | 撰写论文 paper

04-05

596

2）从 AlexNet 到 ResNet，是进一步的扩大网络，因此更大参数的网络可以被训练，从而进一步的丰富了网络拟合特征的能力，**但这不是很大的创新；比如，在一个复杂的地形，我们想要找到最短的上到山顶的路线，那么就是看等高线地图，而不是看原始的地图，在原始的地图中，我们会被很多因素干扰。1）从卷积到 AlexNet ，是更大网络上的使用卷积，从此卷积带来的在平移旋转等情况下，依然可以准确的识别特征，被证明有明显的优势；而轮廓，并且往往是基于色块的轮廓，是物体的。在计算视觉领域，有几个关键的演变。

博客

将 PyTorch Model 用可视化方法浏览 torchview，onxx, netron, summary | 撰写论文 paper

03-31

755

使用 PyTorch 构建的 Model，想要查看网络的图形，那么有以下方法，最终可视化效果最好的是：torchview。是文本的形式，简洁依赖少。清晰直观，信息丰富。识别更多模型的信息。

博客

《跟李沐学 AI》AlexNet论文逐段精读学习心得 | PyTorch 深度学习实战

02-20

1321

前一篇文章，本系列文章 GitHub Repo:本篇文章内容来自于学习的心得。

博客

常用电脑，护眼软件推荐 f.lux 3400K | 撰写论文 paper

02-20

924

使用自定义颜色，设置为 3400K。

博客

微积分基础 1 | Math

02-16

944

使用微积分知识，求解一个简单的数学题。

博客

使用 AlexNet 实现图片分类 | PyTorch 深度学习实战

02-10

942

前一篇文章，本系列文章 GitHub Repo:本篇文章内容来自于。

博客

CNN 卷积神经网络处理图片任务 | PyTorch 深度学习实战

02-08

1356

【通信原理入坑之路】——深入、详细地理解通信里面“卷积”概念卷积，首先是一种数学运算。两个多项式通过滑动，求解多项式参数。深度学习的卷积概念，就是借鉴了通信领域使用了卷积。跨学科运用知识，一直是大牛们的惯用手段。掌握人类已经精通的领域的经验，然后推广到前沿领域。

博客

学习率调整策略 | PyTorch 深度学习实战

02-07

1068

前一篇文章，本系列文章 GitHub Repo:本篇文章内容来自于。

博客

深度学习里面的而优化函数 Adam，SGD，动量法，AdaGrad 等 | PyTorch 深度学习实战

02-06

1428

不同算法的区别，主要体现在 2,3 步。对于1、4 步，是通用的。