(本文是笔者查阅一定资料整理原创所写,受知识面限制,如存在错误,欢迎指出)
Python作为一门年轻的计算机语言,在近些年来大数据与人工智能等前沿科技革命的推动下经历着高速发展,一度呈现赶超传统语言的趋势。
作为大数据分析领域的一个新人,python成为笔者当下最需要学好的一项技能,而大数据分析离不开数据清洗,数据清洗的第一步便是将数据读入,现就python中的read_csv()函数出发,通过分析最常使用的参数,熟悉其基本操作。
下表为笔者使用的数据:
下表为常见参数及其部分信息:
1.filepath_or_buffer
该参数是唯一不能缺失的参数,其目的是提供读取文件路径,对于大多数初学者而言,读取内容通常为电脑上对应文件,现读取笔者位于E:\MYWORK下的csv文件edu.csv
代码如下:
import pandas as pd
df=pd.read_csv("E:/MYWORK/edu.csv",encoding="gbk")
print(df)
Spyder环境显示如下:
2.sep demlimiter
两关键字分别表示分隔符和定界符,同时demlimiter还有备选分隔符的功能,且优先度高于sep,当指定delimiter参数时,sep参数就会失效。通常情况下csv文件以逗号作为分隔符。
3.header
header关键字的主要功能有两个:第一是将指定行的数据作为读取数据各列的列名,由最初读取数据显示出的信息表明,edu文件文件中第一排的“姓名”“居住地”“年级”“年龄”“是否住校”依次成为了各列的列名,这是因为header默认参数为0,即将edu文件中第一排作为列名的缘故。现我们修改参数:
import pandas as pd
df=pd.read_csv("E:/MYWORK/edu.csv"