Pandas模块:读入excel/csv文件,过滤重复值和缺失值处理

excel文件数据为:

首先导入Pandas模块

import pandas as pd

读取excel文件

# 读取excel文件
file_01 = pd.read_excel("data.xls")
print(file_01, '\n')
print('数据维度为:', file_01.shape, '\n', 'file_01的类型为:', type(file_01))

返回的结果 为

    Unnamed: 0                  时间  变量1  变量2  变量3  变量4  变量5    输出应变量
0            1 2021-07-21 00:00:00    1    0    1  1.0    1   94.354
1            2 2021-07-22 00:00:00    1    0    1  1.0    2  118.340
2            3 2021-07-23 00:00:00    1    0    1  1.0    3   93.791
3            4 2021-07-24 00:00:00    1    0    1  2.0    1   86.593
4            5 2021-07-25 17:55:00    1   
处理CSV文件是数据分析的基础步骤之一,Pythoncsv模块pandas库都能完成这项任务,但各有特点。首先,让我们深入了解csv模块的使用方法。 参考资源链接:[Pythoncsv模块pandas库读取CSV文件对比](https://wenku.csdn.net/doc/8b5y4nj8pm?spm=1055.2569.3001.10343) 使用csv模块,你可以直接从Python标准库中导入csv模块,然后使用csv.reader对象逐行读取数据。这种方法适合于数据量不大且对数据处理功能要求不高的情况。csv模块能够将每行数据作为一个字符串列表读入,但缺乏数据结构化处理能力,例如数据类型推断、列名定义等。 下面是一个使用csv模块读取CSV文件的示例代码: ```python import csv with open('example.csv', 'r') as *** *** *** *** ``` 相比之下,pandas库提供的read_csv函数不仅能够读取CSV文件,还能自动处理数据类型转换列名定义,极大地简化了数据处理流程。pandas的DataFrame数据结构为数据操作提供了更丰富的功能,比如数据筛选、分组聚合、缺失值处理等。 下面是一个使用pandas读取CSV文件的示例代码: ```python import pandas as pd df = pd.read_csv('example.csv') print(df.head()) ``` 在性能方面,pandas通常会比csv模块快,特别是处理大型文件时。这是因为pandas库经过优化,并支持块读取等高级技术,而csv模块则是逐行读取。 在数据处理方面,pandas提供了更多的灵活性高级功能,而csv模块则更适合简单的数据读取任务。因此,如果你的工作涉及大量数据处理分析,推荐使用pandas库。如果只是需要快速读取少量数据,csv模块将是一个轻量级的选择。 为了进一步提升你的技能,建议深入学习《Pythoncsv模块pandas库读取CSV文件对比》。这份资料详细介绍了csv模块pandas库各自的使用方法特点,并且通过对比,帮助你更好地理解在不同场景下应如何选择合适的工具。掌握这两种方法后,你将能够更加高效地进行数据处理分析工作。 参考资源链接:[Pythoncsv模块pandas库读取CSV文件对比](https://wenku.csdn.net/doc/8b5y4nj8pm?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值