Python数据分析实战笔记—Pandas数据读写（1）

最新推荐文章于 2024-06-22 10:30:53 发布

Cacra

最新推荐文章于 2024-06-22 10:30:53 发布

阅读量3.2k

点赞数 2

分类专栏： Python数据科学

本文链接：https://blog.csdn.net/u014465934/article/details/79658705

版权

本文详细介绍了Python数据分析库Pandas如何从CSV、TXT、HTML、XML、Excel、JSON等多种格式文件中读取和写入数据，包括read_csv、read_table、to_csv等函数的使用，以及HTML、Excel、JSON等数据的处理和转换。

摘要由CSDN通过智能技术生成

《Python数据分析实战》

本章将学习pandas从多种存储媒介（比如文件和数据库）读取数据。

1.I/O API工具

pandas是数据分析专用库，主要关注的是数据计算和处理。

这里写图片描述

2.读取CSV和文本文件中的数据

读取CSV文件：

pandas中读取CSV函数：read_csv()、read_table()、to_csv()

import numpy as np
import pandas as pd

csvframe = pd.read_csv('mycsv01.csv')

csvframe
>>
    white   red blue    green   animal
0   1       5   2       3   cat
1   2       7   8       5   dog
2   3       3   6       7   horse
3   2       2   8       3   duck
4   4       4   2       1   mouse

既然CSV文件被视为文本文件，你还可以使用read_table()函数，但是得指定分隔符。

csvframe1 = pd.read_table('mycsv01.csv',sep=',')

csvframe1
>>
    white   red blue    green   animal
0   1       5   2       3   cat
1   2       7   8       5   dog
2   3       3   6       7   horse
3   2       2   8       3   duck
4   4       4   2       1   mouse

从上述例子可知，标识各列名称的表头位于CSV文件的第一行，但一般情况并非如此，往往CSV文件的第一行就是列表数据。

#1.会把第一行数据当作表头
csvframe2 = pd.read_csv('mycsv02.csv')
csvframe2
>>
    1   5   2   3   cat
0   2   7   8   5   dog
1   3   3   6   7   horse
2   2   2   8   3   duck
3   4   4   2   1   mouse

#2.对于没有表头的这种情况，使用heder选项，将其值置为None，pandas会为其添加默认表头
csvframe3 = pd.read_csv('mycsv02.csv',header=None)
csvframe3
>>
    0   1   2   3   4
0   1   5   2   3   cat
1   2   7   8   5   dog
2   3   3   6   7   horse
3   2   2   8   3   duck
4   4   4   2   1   mouse

#此外，还可以使用names选项指定表头，直接把存有各列名称的数组赋值给它即可。
csvframe4 = pd.read_csv('mycsv02.csv',names=['white','red','blue','green','animal'])
csvframe4
>>
    white   red blue    green   animal
0   1       5   2       3   cat
1   2       7   8       5   dog
2   3       3   6       7   horse
3   2       2   8       3   duck
4   4       4   2       1   mouse

用RegExp解析TXT文件：

有时要解析的数据文件不是以逗号或分号分隔的。对于这种情况，正则表达式就能派上用场。可以使用sep选项指正正则表达式，在read_table()函数内使用。

例如，通配符\s*，就是指匹配多个空格或制表符。

常用的通配符请见下标：

这里写图片描述

#1.排除 空白字符（空格或制表符）
ch05_04.txt
>>
white   red   blue   green
1       5       2       3
2       7       8       5
3       3       6       7

read_table('ch05_04.txt',sep='\s*')
>>
white   red   blue   green
1       5       2       3
2       7       8       5
3       3       6       7

#2.排除 非数字字符
cho5_05.txt
>>
000END123AAA122
001END124BBB321
002END125CCC333

read_table('ch05_05.txt',sep='\s*')
>>
    0   1   2
0   0   123 122
1   1   124 321
2   2   125 333

#3.skiprows排除多余的行,排除前5行谢skiprows=5;排除第五行，写作skiprows=[5]
ch05_06.txt
>>
########### LOG FILE ############
This file has been gemerated

最低0.47元/天解锁文章

Cacra

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析实战笔记—Pandas数据读写（1）

《Python数据分析实战》本章将学习pandas从多种存储媒介（比如文件和数据库）读取数据。1.I/O API工具pandas是数据分析专用库，主要关注的是数据计算和处理。2.读取CSV和文本文件中的数据读取CSV文件：pandas中读取CSV函数：read_csv()、read_table()、to_csv()import numpy as npi...
复制链接

扫一扫

专栏目录