chp02-01文本文件的读写

最新推荐文章于 2022-09-30 10:32:20 发布

wangyanglongcc

最新推荐文章于 2022-09-30 10:32:20 发布

阅读量193

点赞数

分类专栏： Python实用数据处理

本文链接：https://blog.csdn.net/qq_33246702/article/details/115336406

版权

Python实用数据处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文详细介绍了Pandas库在Python中进行文件读写的各种方法，包括read_csv、read_excel等读取函数和to_csv、to_excel等写入函数。通过实例展示了如何处理不同分隔符的文件，设置表头，以及使用关键参数如dtype、skiprows和skipfooter。此外，还演示了如何使用to_csv写出文件，并调整输出参数如编码、分隔符和是否包含索引。

摘要由CSDN通过智能技术生成

pandas中常见文件读写方法

读

+ **read_csv**

+ **read_excel**

+ read_hdf

+ read_sql

+ read_json

+ read_msgpack (experimental)

+ read_html

+ read_gbq (experimental)

+ read_stata

+ read_sas

+ read_clipboard

+ read_pickle

写

+ **to_csv**

+ **to_excel**

+ to_hdf

+ to_sql

+ to_json

+ to_msgpack (experimental)

+ to_html

+ to_gbq (experimental)

+ to_stata

+ to_clipboard

+ to_pickle

其它数据源：

+ 数据库

+ 读取网页数据,网络文件

+ 读取股票数据

+ yahoo，世界银行等等

读取你的第一个文件

文本文件是我们在工作中最常见的数据文件，常见的格式有csv、tsv、txt等，这节课我们就来介绍一些这种类型的文件的读写。

读取文本文件，我们只需要使用pandas中的`read_csv`函数即可。csv、tsv、txt格式的文件都可以用`read_csv`这一个函数读取。

# 首先导入我们所需要的模块

import pandas as pd

读入带表头的数据

df = pd.read_csv('../data/housing.csv') # 默认会把第一行当做表头

print(df.shape)#查看数据行列

df.head()#查看前5行

pd.read_csv?常见参数 pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)

需要掌握的几个参数：

1. 文件路径：这个毫无疑问，不然程序怎么知道你要读取的是哪个文件

2. 分隔符sep：默认为','，具体的根据你的文件中具体的分隔符来指定。常见的有'\t',',','|'等。

3. 编码方式encoding:默认为'utf-8',也可能是其他方式，常见的编码方式有utf-8,gbk,utf-16等。

4. header:默认把第一行数据当做表头。当读入无表头的数据时，要将其设置为None。