1. 背景
在做一个项目的时候,解析json数据,发现有一台机器的数据有问题,平时其他机器的数据都能正常解析只有这台机器有问题,找了一些解决办法都没用(修改代码),然后感觉肯定是有一条数据格式不对,所以才抛出了这样的异常,于是就要找这具体的这个文件
2. 解决办法

像这种的小文件一共有30多W个,本来想使用二分法,但是同时复制大批量文件到文件夹中会卡死,无奈一个文件中放1W条数据,最后在大约9W-10W条的时候找出来了
在处理30多万个小文件时,遇到一台机器的JSON数据解析异常。通过排除法和批量文件复制尝试未果,最终通过逐个文件检查,在约9万至10万条数据区间找到问题文件。
在做一个项目的时候,解析json数据,发现有一台机器的数据有问题,平时其他机器的数据都能正常解析只有这台机器有问题,找了一些解决办法都没用(修改代码),然后感觉肯定是有一条数据格式不对,所以才抛出了这样的异常,于是就要找这具体的这个文件

像这种的小文件一共有30多W个,本来想使用二分法,但是同时复制大批量文件到文件夹中会卡死,无奈一个文件中放1W条数据,最后在大约9W-10W条的时候找出来了
您可能感兴趣的与本文相关的镜像
Langchain-Chatchat
Langchain-Chatchat 是一个基于 ChatGLM 等大语言模型和 Langchain 应用框架实现的开源项目,旨在构建一个可以离线部署的本地知识库问答系统。它通过检索增强生成 (RAG) 的方法,让用户能够以自然语言与本地文件、数据库或搜索引擎进行交互,并支持多种大模型和向量数据库的集成,以及提供 WebUI 和 API 服务
2万+
596
6481