首先博主要介绍下写该博客的背景
1、博主要处理的中文字段是这样式的:
01挂式空调
02普通椅子
02普通窗帘
03书桌-电脑桌-办公桌
04微波炉-烤箱-洗碗机-消毒柜
05电暖气-加湿器-小太阳-电风扇-空气净化器
2、代码是这样式的
# coding: utf-8
import os
import sys
import json
import string
import re
ijson = {"objects":[]}
with open("position") as fp:
for line in fp:
label = line.strip().replace("\n", "")
print label
iobject = {}
iobject["id"] = re.sub("\D", "", label)
iobject["label"] = re.sub("[A-Za-z0-9\!\%\[\]\,\。]", "", label)
ijson["objects"].append(iobject)
print ijson
3、但是结果是这样式的
{'objects': [{'id': '01', 'label': '\xe6\x8c\xe5\xbc\x8f\xe7\xa9\xba\xe8\xb0\x83'}, {'id': '02', 'label': '\xe6\x99\xae\xe9\x9a\xe6\x