python文本处理指南_python文本处理

该代码仅与声智科技部分数据集或其他可匹配的数据集使用

目标:将抓取的数据格式转换成可供识别的json文件

待处理数据为

可以看出首行提供了类别信息,所有的电视频道的majortype均为tv,第二列为对应的minortype,第三列为对应的value值

一行代表一个字典,以第一行为例,对应的字典应为:

{

"majorType": "tv",

"minorType": "dszn",

"value": [

"中数电视指南",

"cctv电视指南频道",

"cctv电视指南",

"中数传媒电视指南",

"中央电视指南频道",

"央视指南",

"电视指南",

"广电电视指南",

"中央电视指南",

"数字指南",

"中央电视台电视指南"

]

}目标格式

运行main.py后可得的结果:result1

从result1可看出在缩进方面,并没有达到预期效果,仍有美化的空间result2

输出文件末尾多出一个逗号,且缺少与开头对应的中括号以及大括号,人为修改后不影响实际运行结果

solution:可通过判断当前处理的行数是否与all.txt的行数相等来判断是否需要添加逗号以及添加与开头对应的中括号、大括号。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值