关闭

python 编码问题——字符编码

标签: python编码encodeutf-8
686人阅读 评论(0) 收藏 举报
分类:

preface: 承接上一条博客,帮师兄处理json文件读入数据库中。python读入数据到数据库中,出现编码问题。python里面定义了utf-8,然而文件中有日文、韩文、其他符号、拉丁编码等等,对编码不够熟悉果然是要死银的,弄了挺久的,却终究一个函数可破。encode()函数。

decode()和encode()这两个函数,有空的时候还是多看看才是。

# -*- coding: utf-8 -*-
"""
Created on Fri Jul 10 16:49:56 2015

@author: shifeng
"""
import codecs
import json
import sys
reload(sys)    
sys.setdefaultencoding('utf8') 

f = codecs.open("xxx.json")
for line in f:
    line_dict = json.loads(line)
    text = line_dict["text"]
    text = text.encode(encoding="utf-8",errors = "ignores")
xxx.json文件中,text字段的值包含中文、拉丁编码、日文、韩文等。
unicode(string,encoding="GB2312")
另外编码问题可参考:http://blog.csdn.net/tingsking18/article/details/4033645

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:379856次
    • 积分:5244
    • 等级:
    • 排名:第5420名
    • 原创:122篇
    • 转载:151篇
    • 译文:2篇
    • 评论:35条
    最新评论