python3 处理含有非法字符的txt文件，转为csv文件（重点处理了UnicodeDecodeError问题）

最新推荐文章于 2024-06-21 10:51:21 发布

mmmmmmmmzw

最新推荐文章于 2024-06-21 10:51:21 发布

阅读量384

点赞数

分类专栏： python 文章标签： python csv

本文链接：https://blog.csdn.net/mmmmmmmmzw/article/details/116278925

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了如何处理Python在读取和写入CSV文件时遇到的UnicodeDecodeError，包括'utf-8'和'gbk'编码问题，以及如何避免文字被逗号分隔。通过提供一个Python代码示例，展示了清洗非UTF8内容并写入新CSV文件的过程，成功解决了数据清洗和格式化的问题。

摘要由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

本文能解决的问题

1. UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xce in position 0: invalid continuation byte

2. UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xac in position 6340: illegal multibyte sequence

3. 为什么写入csv的文字被逗号‘，’隔开了

4. 不会操作/靠百度操作csv文件的问题

提示：其实读txt或csv都可以互通，只要一个能读出来，就能格式化转换。
按照我粗浅的理解，txt好读一点，因为我这份数据用csv方法根本打不开，只能改后缀名为txt

一、最终代码

提示：本段为python3语言，为本作者在学习中解决问题后的总结，参考了如下文章
为什么写入csv的文字被逗号‘，’隔开了
 python逐行写入到csv文件

# -------------本段代码做第一步数据清洗，去除非utf8的内容，避免出错------------
# 判断是否是中文，或逗号。句号，换行
def is_chinese(uchar):
    if (uchar >= '\u4e00' and uchar <= '\u9fa5') or uchar==',' or uchar=='。' or uchar=='\n':
        return True
    else:
        return False
    
# 判断一行语句，进行检查
def reserve_chinese(content):
    content_str = ''
    for i in content:
        if is_chinese(i):
            content_str += i
    return content_str
# 打开源数据文件txt，创建一个csv文件，读一行txt，写一行csv
def utf_data():
    new_item_csv = 'utf_xihu'
    with open('data/xihu.txt', 'r', encoding='utf-8') as read:
        with open('{}.csv'.format(new_item_csv), 'w', encoding='utf-8', newline='') as f_write:
            writer = csv.writer(f_write, dialect='excel')
            read_line=read.readline()
            while read_line:
#                 去除空行（如果这是一个空行，则跳过）
                if read_line.isspace():
                    read_line=read.readline()
#             写入判断好的数据
#             []的作用是避免新数据被逗号分隔，如果不加[]，“新,的,数,据,就,是,这,样”
                writer.writerow([reserve_chinese(read_line)])
                read_line=read.readline()
utf_data()