该代码仅与声智科技部分数据集或其他可匹配的数据集使用
目标:将抓取的数据格式转换成可供识别的json文件
待处理数据为
可以看出首行提供了类别信息,所有的电视频道的majortype均为tv,第二列为对应的minortype,第三列为对应的value值
一行代表一个字典,以第一行为例,对应的字典应为:
{
"majorType": "tv",
"minorType": "dszn",
"value": [
"中数电视指南",
"cctv电视指南频道",
"cctv电视指南",
"中数传媒电视指南",
"中央电视指南频道",
"央视指南",
"电视指南",
"广电电视指南",
"中央电视指南",
"数字指南",
"中央电视台电视指南"
]
}目标格式
运行main.py后可得的结果:result1
从result1可看出在缩进方面,并没有达到预期效果,仍有美化的空间result2
输出文件末尾多出一个逗号,且缺少与开头对应的中括号以及大括号,人为修改后不影响实际运行结果
solution:可通过判断当前处理的行数是否与all.txt的行数相等来判断是否需要添加逗号以及添加与开头对应的中括号、大括号。