Python数据分析_Pandas

最新推荐文章于 2023-11-06 16:23:32 发布

WxyangID

最新推荐文章于 2023-11-06 16:23:32 发布

阅读量894

点赞数

分类专栏： Python 文章标签：数据分析 python read-csv

本文链接：https://blog.csdn.net/WxyangID/article/details/71439164

版权

Python 专栏收录该内容

51 篇文章 0 订阅

订阅专栏

pandas可以很方便的读取/存储各种格式的本地文件，读取用read_xx()，写入用to_xx()。

读取 —– 写入
read_csv —– to_csv
read_excel —– to_excel
read_hdf —– to_hdf
read_sql —– to_sql
read_json —– to_json
read_msgpack (experimental) —– to_msgpack (experimental)
read_html —– to_html
read_gbq (experimental) —– to_gbq (experimental)
read_stata —– to_stata
read_clipboard —– to_clipboard
read_pickle —– to_pickle

常用的：csv, excel, json, pickle数据格式的读写

pd.read_csv(filepath_or_buffer, sep=’,’, delimiter=None, header=’infer’, names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression=’infer’, thousands=None, decimal=b’.’, lineterminator=None, quotechar=’”’, quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)

read_csv()常用参数：
filepath_or_buffer : str，pathlib。str, pathlib.Path,
py._path.local.LocalPath or any object with a read() method
(such as a file handle or StringIO)
读取文件路径，可以是URL，可用URL类型包括：http, ftp, s3和文件。

sep :str, default ‘,’
指定分隔符。如果不指定参数，则会尝试使用逗号分隔。csv文件一般为逗号分隔符。

delimiter ： str, default None
定界符，备选分隔符（如果指定该参数，则sep参数失效）

header :int or list of ints, default ‘infer’
指定行数用来作为列名，数据开始行数。如果文件中没有列名，则默认为0，否则设置为None。

names : array-like, default None
用于结果的列名列表，对各列重命名，即添加表头。
如数据有表头，但想用新的表头，可以设置header=0,names=[‘a’,’b’]实现表头定制。

index_col : int or sequence or False, default None
用作行索引的列编号或者列名，如果给定一个序列则有多个行索引。
可使用index_col=[0,1]来指定文件中的第1和2列为索引列。

squeeze : boolean, default False
如果文件只包含一列，则返回一个Series

dtype : Type name or dict of column -> type, default None
每列数据的数据类型。例如 {‘a’: np.float64, ‘b’: np.int32}

parse_dates: boolean or list of ints or names or list of lists or dict, default False
df=pd.read_csv(file_path,parse_dates=[‘time1’,’time2’])，
把time1和time2两列解析为日期格式。
这里不得不说，很遗憾中文不行，比如‘4月5日’这种格式就不能解析。

date_parser : function, default None
于解析日期的函数，默认使用dateutil.parser.parser来做转换。
Pandas尝试使用三种不同的方式解析，如果遇到问题则使用下一种方式。
1.使用一个或者多个arrays（由parse_dates指定）作为参数；
2.连接指定多列字符串作为一个列作为参数；
3.每行调用一次date_parser函数来解析一个或者多个字符串（由parse_dates指定）作为参数。

*读取多个文件
import pandas
import glob
for r in glob.glob(“test*.csv”):
csv=pandas.read_csv(r)
csv.to_csv(“test.txt”,mode=”a+”)

WxyangID

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析_Pandas

pandas可以很方便的读取/存储各种格式的本地文件，读取用read_xx()，写入用to_xx()。读取 —– 写入 read_csv —– to_csv read_excel —– to_excel read_hdf
复制链接

扫一扫