通过open()函数理解参数encoding

最新推荐文章于 2025-03-03 12:09:57 发布

notesalon

最新推荐文章于 2025-03-03 12:09:57 发布

阅读量2.2w

点赞数 17

分类专栏： Python

本文链接：https://blog.csdn.net/tcc2430/article/details/87282770

版权

Python 专栏收录该内容

5 篇文章

订阅专栏

本文深入讲解了Python中open函数的使用方法，包括file、mode和encoding三个关键参数的详细解释。探讨了不同文件打开模式的特点，如只读'r'、写入'w'等，并强调了正确设置文件编码的重要性。通过实例演示了如何处理编码错误，提供了判断文件编码格式的实用技巧，并分享了一种将文件转换为utf-8编码的批量处理方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

open(file,mode,encoding)

主要学习三个参数：file、mode和encoding。

参数含义

file：在指定了文件路径的情况下，可以直接用文件名作为输入参数

列如

os.chdir(r’F:\文本分析)

file=‘data.csv’

with open(file,mode=‘w’,encoding=‘utf-8’) as f:

mode：文件打开模式

常用mode参数有

‘w’	表示打开一个文件只用于写入。采用该模式时需小心。因为如果指定的文件已经存在，Python将在返回文件对象前清空该文件。如果文件不存在，则创建新文件
‘r’	表示以只读方式打开文件。调用函数时若不给出mode值，默认采用该模式。

encoding：所要打开文件的编码格式

读取文件的时候，如果编码不对，会报错

列如
filename=‘data.csv’（该文件的编码格式是utf-8）
open(filename,encoding=‘gbk’)（调用函数时用的是gbk编码）
会出现类似以下报错

UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 423: illegal multibyte sequence
正确的打开方式是
open(filename,encoding=‘utf-8’)

读取时如果不指明编码格式，默认使用locale.getpreferredencoding()函数返回的编码方式。

如何判断所要打开的文件的编码格式

在一篇博文中提到了采用chardet.detect()方法，参考该博文,用如下代码做了测试：

# -*- coding: utf-8 -*-
import chardet
import string
import os

os.chdir(r'F:\文本分析')
file='rg2.csv'
with open(file, 'rb') as f:
    data = f.read()
    f_charInfo=chardet.detect(data)
    print (f_charInfo)

但预测的结果不太准。这个方法不是很靠谱。

实在无法判断的情况下，可以考虑将csv格式的文件转化为utf-8格式，如果文件数量少，可以用记事本另存为utf-8格式，但文件数量大，可参考该博文的方法，其代码如下：

import codecs
def handleEncoding(original_file,newfile):
    #newfile=original_file[0:original_file.rfind(.)]+'_copy.csv'
    f=open(original_file,'rb+')
    content=f.read()#读取文件内容，content为bytes类型，而非string类型
    source_encoding='utf-8'
    #####确定encoding类型
    try:
        content.decode('utf-8').encode('utf-8')
        source_encoding='utf-8'
    except:
        try:
            content.decode('gbk').encode('utf-8')
            source_encoding='gbk'
        except:
            try:
                content.decode('gb2312').encode('utf-8')
                source_encoding='gb2312'
            except:
                try:
                    content.decode('gb18030').encode('utf-8')
                    source_encoding='gb18030'
                except:
                    try:
                        content.decode('big5').encode('utf-8')
                        source_encoding='gb18030'
                    except:
                        content.decode('cp936').encode('utf-8')
                        source_encoding='cp936'
    f.close()
    
    #####按照确定的encoding读取文件内容，并另存为utf-8编码：
    block_size=4096
    with codecs.open(original_file,'r',source_encoding) as f:
        with codecs.open(newfile,'w','utf-8') as f2:
            while True:
                content=f.read(block_size)
                if not content:
                    break
                f2.write(content)