作者:Zarten 知乎专栏:python数据分析与挖掘深入详解 知乎ID: Zarten 简介: 互联网一线工作者,尊重原创并欢迎评论留言指出不足之处,也希望多些关注和点赞是给作者最好的鼓励 !
概述
通过pandas处理数据时,数据从何而来呢?基本都是从外部获取的,如纯文本文件、excel、数据库、网页等,所以从外部导入数据的重要性不言而喻。
这篇文章将介绍导入csv和excel文件为Pandas的DataFrame对象。
导入CSV文件
csv文件类型实际是文本文件,由于文本文件没有固定的格式或数据类型等,所以csv文件形式可以是千变万化,下面将介绍如何来导入杂乱无章的csv文件。
主要函数:
read_csv()
由于csv文件中数据、格式等导致杂乱无章,所以read_csv()函数的参数达50多个。
第一个参数filepath_or_buffer为文件名
第二个参数为sep为分隔符,有逗号(',')、制表符('t')等分隔符
最简单的形式
文件如下:
文本编辑器打开如下:
由上图看到,以制表符't'分隔,函数参数使用sep= 't'
import
设置列名
有时csv文件中没有列名,这时若直接读取会自动将第一行数据当做列名,如下所示: