linux系统使用head和tail命令，快速切分json 格式的数据集-CSDN博客

本文链接：https://blog.csdn.net/sjxgghg/article/details/136643160

本文介绍了如何处理JSON格式的数据集，包括将10748行数据切分为9000行的训练集(train.json)和1748行的测试集(test.json)，确保数据集的划分用于训练和评估模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

介绍

json格式的数据集，每一行都是一个单独数据单元。
data.json的文件格式如下：

{"text": "彭小军认为，国内银行现在走的是台湾的发卡模式，先通过跑马圈地再在圈的地里面选择客户，", "label": {"address": {"台湾": [[15, 16]]}, "name": {"彭小军": [[0, 2]]}}}
{"text": "温格的球队终于又踢了一场经典的比赛，2比1战胜曼联之后枪手仍然留在了夺冠集团之内，", "label": {"organization": {"曼联": [[23, 24]]}, "name": {"温格": [[0, 1]]}}}
{"text": "突袭黑暗雅典娜》中Riddick发现之前抓住他的赏金猎人Johns，", "label": {"game": {"突袭黑暗雅典娜》": [[0, 7]]}, "name": {"Riddick": [[9, 15]], "Johns": [[28, 32]]}}}
{"text": "郑阿姨就赶到文汇路排队拿钱，希望能将缴纳的一万余元学费拿回来，顺便找校方或者教委要个说法。", "label": {"address": {"文汇路": [[6, 8]]}}}
{"text": "我想站在雪山脚下你会被那巍峨的雪山所震撼，但你一定要在自己身体条件允许的情况下坚持走到牛奶海、", "label": {"scene": {"牛奶海": [[43, 45]], "雪山": [[4, 5]]}}}