用字典dict做词频统计的时候遇到的小问题:
首先,如果将dict直接写入txt,会出现”TypeError: must be str, not dict“的错误。所以思路:将dict转化为str再写入。
1.将dict序列化后写入,需要用到json的damps()函数对数据进行编码,其返回值是’str‘类型:
dic = {'name': 'Su', 'gender': 'female','age':20}
with open('./test.txt', 'w', encoding='utf-8') as f:
# 将dic dumps json 格式进行写入
f.write(json.dumps(dic))
写入test.txt文件的结果为:
{"name": "Su", "gender": "女", "age": 20}
2. 如果dict中存在中文,用以上方法会出现以下结果:
{"\u59d3\u540d": "Su", "\u6027\u522b": "\u5973", "age": 20}
为避免这种情况,需要对以上damps方法中的参数进行设置。先来看看damps函数的源代码:
def dumps(obj, *, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw)
其中ensure_ascii用来规定返回值是否可以包含非ASCII码。中文超过ASCII码范围,所以会出现以上乱码情况。(其他参数说明参考源码或这篇博客)。所以修改ensure_ascii参数值:
dic = {'姓名': 'Su', '性别': '女','age':20}
with open('./test.txt', 'w', encoding='utf-8') as f:
# 将dic dumps json 格式进行写入
f.write(json.dumps(dic, ensure_ascii=False))
写入test.txt文件的结果为:
{"姓名": "Su", "性别": "女", "age": 20}