【Pandas】驯化-02
pd.read_csv读取中文出现error解决方法
本次修炼方法请往下查看
🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 免费获取相关内容文档关注: 微信公众号 发送 pandas 即可获取
🎇 相关内容视频**讲解 B站
🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。
🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100% 。
📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。
下滑查看解决方法
🎯 一、Pandas中的read_csv文件
Pandas支持各种类型的文件格式的读写操作例如:csv、txt、json、execl等,实际工作中一般以CSV文件格式为主,大部分时间使用的函数为read_csv
函数,少部分json数据格式使用read_json
,对于大多数情况下的结构化数据通过read_csv读取数据并对其进行处理,execl有其他的read_execl函数。
read_csv()是Pandas库中用于读取CSV文件的函数。CSV文件是一种常用的数据文件格式,通常由逗号分隔的文本组成。read_csv()函数可以将CSV文件中的数据读取到Pandas的DataFrame对象中,便于进行数据分析和处理。
💡 二、pd.read_csv重要参数
read_csv() 函数的常用参数包括:
- filepath_or_buffer: CSV文件的路径或文件对象。
- sep: 分隔符,默认为逗号。
- delimiter: 分隔符,默认为None。
- header: 指定数据文件的行数作为列名,默认为0,表示第一行是列名。设为None时表示无列名。
- names: 自定义列名。
- index_col: 指定某列作为行索引。
- usecols: 从数据文件中选择特定的列进行读取。
- dtype: 指定列的数据类型。
- skiprows: 跳过指定行数不读取。
- nrows: 读取指定行数的数据。
- na_values: 将特定值识别为缺失值。
- parse_dates: 指定日期列进行日期解析。
- 以下为一个read_csv的用法
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
🔍 三、pd.read_csv读取错误解决
read_csv读取数据常用的错误总的来说为读取的时候数量变少问题、utf编码问题、c token问题
,对于这等问题大多数为环境因素、编码因素、里面中文空格符等因素导致,本文针对不同的方案进行针对性处理。
读取数量变少
quoting: 当读取csv文件时,如果数据中有"等特殊符号,则可能会出现读取数据少了很多,这个时候就需要加上这个参数保证数据没有出错,quoting=3,具体如下:
df = pd.read_csv('test.csv', sep='\t', header='infer',
names=None, usecols=None, prefix=None,
dtype=None, engine='python', skiprows=None, nrows=None, quoting=3,
enconding='utf-8')
读取报编码错误
遇到pandas读取出现utf-8的编码问题,可以使用shell中的iconv将数据转为utf-8,iconv -f utf-8 -t utf-8 > aa
,然后read_csv的时候加上参数quoting=3, engine=‘python’, error_bad_lines=False
读取报C Token问题
对于上述的问题,如果觉得少数的错误数据是可以去掉丢失的,那么这个时候可以采用读取的时候丢掉的方法即可,但是需要注意一下Pandas的版本问题,如果想要使用上述的error_bad_lines=False
参数来跳过错误,具体将pandas的版本设置为pip install pandas=1.42,不然的话会报不存在该参数的错误
对于版本超过1.42的2.0的Pandas版本可以使用参数:on_bad_lines可以指定通过该参数设置为skip来跳过错误