Python文件数据读取——.xlsx/.csv/.txt

FORGIVEN_H

已于 2022-07-06 13:58:23 修改

阅读量967

点赞数

分类专栏： PYTHON入门文章标签： python pandas

于 2022-07-06 13:45:21 首次发布

本文链接：https://blog.csdn.net/L_Jane_H/article/details/125637263

版权

PYTHON入门专栏收录该内容

20 篇文章 0 订阅

订阅专栏

本来是打算自己写一篇关于数据读取和处理的长文的，零零散散搜集了很多资料，又多又杂，就略作整理放在这里吧，主要想感叹一下pandas库功能的强大，简单总结如下：

仅对基础文件做全文数据读取：

1 .xlsx

import pandas as pd
df = pd.read_excel('data.xlsx')
data=df.values.tolist()
print(data)

2 .csv

import pandas as pd
df= pd.read_csv('data.csv')
data=df.values.tolist()
print(data)

3 .txt

with open("data.txt", "r") as f:  # 打开文件
    data = f.read()  # 读取文件
    print(data)

注：open()函数通常用于.txt文件的读取和写入操作，用于其他文件格式出错率较高。

以上三种文件读取的方式中，前两者结构基本一致，第三种方式略显不同，其区别在于：

①前两者需要先导入pandas库，再使用文件读取函数；而open()函数不需要提前导入其他任何库

②前两者文件读取结果df均为DataFrame格式，具备DataFrame的基本属性，获取值需要使用 .values方法，转换为列表'list'格式用tolist方法；而第三种格式读取的数据data则为字符串str类型

如果想对pandas库的DataFrame数据类型的操作有更多了解，参考：

Pandas DataFrame入门_莽撞少年的博客-CSDN博客_pandas打印前5行

针对.xlsx文件，如果存在多张工作表以及表标签等因素，可以采用如下方式获取工作表的值：

import pandas as pd

df=pd.read_excel('data.xlsx',#文件名称及存储地址
                 sheet_name='Sheet1',#工作表名称：'sheet1'
                 header=1,#表标签：第2(1)行
                 index_col=0)#索引：第1(0)列, #skiprows=0 跳过读取：第1(0)行

data=df.values.tolist()#获取工作表值
print(data)

同时有兴趣的友友可以参考一下笔者关于使用xlrd操作.xlsx文件的避坑指南：

https://mp.csdn.net/mp_blog/creation/editor/125637937