官网:https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv
一、pd.read_csv()
作用:将csv文件读入并转化为数据框形式。
filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]], sep=',', delimiter=None,
header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None,
mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None,
false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None,
na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True,
parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None,
dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer',
thousands=None, decimal: str = '.', lineterminator=None, quotechar='"', quoting=0,
doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None,
error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True,
memory_map=False, float_precision=None
参数虽多,但常用的参数屈指可数,下面简单介绍一下常用参数:
1.filepath_or_buffer:str
表示文件所在处的路径。(唯一一个必须有的参数,其它按要求选用)
任何有效的字符串路径都是可以接受的。该字符串可以是URL。有效的URL方案包括http,ftp,s3和file。
2.sep:str
指定分隔符。默认为“,”。
3.delimiter:str
定界符,备选分隔符(如果指定该参数,则sep参数失效)。默认为None。
4.header:int,list
指定哪一行作为表头。默认为0(即第一行作为表头),如果没有表头的话,设置header=None。
5.names:array
指定列的名称。一般我们没有表头,即header=None时,这个用来添加列名就很有用滴!
6.index_col:int,str,int / str的序列,
指定哪一列数据作为行索引,可以是一列,也可以多列。多列的话,会看到一个分层索引。默认为False。
7.prefix:str
给列名添加前缀。如prefix="x",会出来"x1"、"x2"。
8.nrows:int
要读取的文件行数。对于读取大文件很有用。
9.skiprows:list-like, int
文件开头要跳过的行号(索引为0)或要跳过的行数(整数)。
10.encoding:str
读/写时用于UTF的编码(例如'utf-8')。乱码时需考虑。
二.pd.to_csv()
作用:将数据框写入本地电脑,保存。
以下代码了解当前工作路径。
import os
father_path = os.getcwd()
father_path
基本格式:
import pandas as pd
pd.to_csv(path_or_buf,sep,na_rep,columns,header,index)
常用参数介绍:
1.path_or_buf:str
放文件名、相对路径、文件流等。
2.sep:str
分隔符。与read_csv()中sep参数意思一样。
3.na_rep:str
将NaN转换为特定值。
4.columns:list
指定哪些列写进去。
5.header
默认header=0,如果没有表头,设置header=None。
6.index
关于索引的,默认True,写入索引。