Pandas 导入CSV文件（8）Python 数据分析从零开始

最新推荐文章于 2024-08-19 14:47:08 发布

ADCC千月

最新推荐文章于 2024-08-19 14:47:08 发布

阅读量2.1k

点赞数

分类专栏：数据分析 Pandas PYTHON 文章标签：数据分析 pandas python csv 千月

本文链接：https://blog.csdn.net/syshzbtt/article/details/99244693

版权

本文介绍了如何使用Pandas导入CSV文件，重点讨论了CSV文件的分隔符选择，如使用0x01作为分隔符以避免歧义。通过示例展示了读取带有特殊分隔符的CSV文件的方法，包括设置编码、指定列名和设置索引列的操作。同时提到了处理日期格式时可能需要的date_parser参数。

摘要由CSDN通过智能技术生成

写任何有关pandas的代码前，我们应该先导入pandas

import pandas as pd

我们下面出现全部的pd都代表对pandas的引用

关于CSV文件格式

CSV即Comma Separate Values（逗号分隔值），默认使用逗号来进行分隔列的一类文本文件。此分隔符可以改变，因为逗号在很多地方都会出现，所以做分隔符有时不是太合理。

比如：2019,03,21,Hello,Qianyue,good day.,from fox

这样一使用逗号分隔难免出现歧义，以为句子里边包含了逗号，其实可以用""括起来，但是在生产环境中，还是会遇到各种问题。因此一般对于CSV文件，我们经常选用一些特殊的符号来标识分隔符。比如 0x01这个分隔符，因其无法使用键盘输入，所以经常在大数据hadoop中使用，也是hive的默认分隔符。逗号分隔符比较简单我们不做实验了，我们直接使用0x01来做实验。

生成新测试对象

import pandas as pd
data ="""电影名\x01票房\x01评分
        流浪地球\x0146\x019.0
        上海堡垒\x011\x013.5"""
with open("c:/CSDN/pandas/a.csv",'a') as tmp_file:
tmp_file.write(data)