《Python数据分析实战》
本章将学习pandas从多种存储媒介(比如文件和数据库)读取数据。
1.I/O API工具
pandas是数据分析专用库,主要关注的是数据计算和处理。
2.读取CSV和文本文件中的数据
读取CSV文件:
pandas中读取CSV函数:read_csv()、read_table()、to_csv()
import numpy as np
import pandas as pd
csvframe = pd.read_csv('mycsv01.csv')
csvframe
>>
white red blue green animal
0 1 5 2 3 cat
1 2 7 8 5 dog
2 3 3 6 7 horse
3 2 2 8 3 duck
4 4 4 2 1 mouse
既然CSV文件被视为文本文件,你还可以使用read_table()函数,但是得指定分隔符。
csvframe1 = pd.read_table('mycsv01.csv',sep=',')
csvframe1
>>
white red blue green animal
0 1 5 2 3 cat
1 2 7 8 5 dog
2 3 3 6 7 horse
3 2 2 8 3 duck
4 4 4 2 1 mouse
从上述例子可知,标识各列名称的表头位于CSV文件的第一行,但一般情况并非如此,往往CSV文件的第一行就是列表数据。
#1.会把第一行数据当作表头
csvframe2 = pd.read_csv('mycsv02.csv')
csvframe2
>>
1 5 2 3 cat
0 2 7 8 5 dog
1 3 3 6 7 horse
2 2 2 8 3 duck
3 4 4 2 1 mouse
#2.对于没有表头的这种情况,使用heder选项,将其值置为None,pandas会为其添加默认表头
csvframe3 = pd.read_csv('mycsv02.csv',header=None)
csvframe3
>>
0 1 2 3 4
0 1 5 2 3 cat
1 2 7 8 5 dog
2 3 3 6 7 horse
3 2 2 8 3 duck
4 4 4 2 1 mouse
#此外,还可以使用names选项指定表头,直接把存有各列名称的数组赋值给它即可。
csvframe4 = pd.read_csv('mycsv02.csv',names=['white','red','blue','green','animal'])
csvframe4
>>
white red blue green animal
0 1 5 2 3 cat
1 2 7 8 5 dog
2 3 3 6 7 horse
3 2 2 8 3 duck
4 4 4 2 1 mouse
用RegExp解析TXT文件:
有时要解析的数据文件不是以逗号或分号分隔的。对于这种情况,正则表达式就能派上用场。可以使用sep选项指正正则表达式,在read_table()函数内使用。
例如,通配符\s*,就是指匹配多个空格或制表符。
常用的通配符请见下标:
#1.排除 空白字符(空格或制表符)
ch05_04.txt
>>
white red blue green
1 5 2 3
2 7 8 5
3 3 6 7
read_table('ch05_04.txt',sep='\s*')
>>
white red blue green
1 5 2 3
2 7 8 5
3 3 6 7
#2.排除 非数字字符
cho5_05.txt
>>
000END123AAA122
001END124BBB321
002END125CCC333
read_table('ch05_05.txt',sep='\s*')
>>
0 1 2
0 0 123 122
1 1 124 321
2 2 125 333
#3.skiprows排除多余的行,排除前5行谢skiprows=5;排除第五行,写作skiprows=[5]
ch05_06.txt
>>
########### LOG FILE ############
This file has been gemerated