学习笔记(03):Python数据清洗实战-csv文件读写

最新推荐文章于 2024-05-24 00:48:06 发布

ursjing

最新推荐文章于 2024-05-24 00:48:06 发布

阅读量1k

点赞数

分类专栏：研发管理文章标签：数据编程语言 Python python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ursjing/article/details/104195279

版权

研发管理专栏收录该内容

5 篇文章 0 订阅

订阅专栏

立即学习:https://edu.csdn.net/course/play/26990/361120?utm_source=blogtoedu

pandas读取csv时，参数可以有十几种，但是我们平时常用只有三四种，大多使用默认参数

read_csv读取文件为dataFrame格式

csv名称尽量设成英文

使用to_csv快速保存

import os是改变文件路径的库 os.getwcd()获得文件路径 os.chdir(r'这里面是文件路径，最好中间用//双斜线隔开，因为中间可能会有中文)前面加一个r’防止它被转义

变量 = pd.read_csv(‘’, encoding = ‘utf-8’) 这里, encoding = ‘utf-8’可写可不写，因为是默认utf-8的

运行一下变量.head(5) 会默认把列名也就是第一行当表头，行索引默认从0开始是第一行，也就是下坐标从0开始，（5）是显示下标0-4前五行信息，加上表头那行一共6行。

有的时候编码不是utf-8, encoding = ‘gbk’

变量.info（）可以查看整个数据信息，看每个字段的数据类型

如果是int编码形式的数据那么读成字符串好一些也就是用一个参数dtype={‘column名1’：str,‘column名2’：str}类似这样

还有一个参数nrows=100指读取前100行

在pandas里面可以设置数据最多显示的行数和列数pd.set_options(‘display,max_columns’, 20)就是指最多显示20列 pd.set_options(‘display,max_rows’, 100)就是最多显示100行

因为表比较大时就会把中间列数省掉，但是如果这样设置行列那么就会把所有行都会显示出来。

变量.to_csv(‘这里起一个新名字’，encoding=‘gbk’这里编码可以改成gbk那么下次读取就要用gbk读取,index= False这里指不把索引行写到csv文件里面去)

会把文件保存在原来的路径下面去

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
学习笔记(03):Python数据清洗实战-csv文件读写

本次课程主要以真实的电商数据为基础，通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。