Python数据分析实战笔记—Pandas数据读写(1)

本文详细介绍了Python数据分析库Pandas如何从CSV、TXT、HTML、XML、Excel、JSON等多种格式文件中读取和写入数据,包括read_csv、read_table、to_csv等函数的使用,以及HTML、Excel、JSON等数据的处理和转换。
摘要由CSDN通过智能技术生成

《Python数据分析实战》

本章将学习pandas从多种存储媒介(比如文件和数据库)读取数据。

1.I/O API工具

pandas是数据分析专用库,主要关注的是数据计算和处理。

这里写图片描述

2.读取CSV和文本文件中的数据

读取CSV文件:

pandas中读取CSV函数:read_csv()、read_table()、to_csv()

import numpy as np
import pandas as pd

csvframe = pd.read_csv('mycsv01.csv')

csvframe
>>
    white   red blue    green   animal
0   1       5   2       3   cat
1   2       7   8       5   dog
2   3       3   6       7   horse
3   2       2   8       3   duck
4   4       4   2       1   mouse

既然CSV文件被视为文本文件,你还可以使用read_table()函数,但是得指定分隔符。

csvframe1 = pd.read_table('mycsv01.csv',sep=',')

csvframe1
>>
    white   red blue    green   animal
0   1       5   2       3   cat
1   2       7   8       5   dog
2   3       3   6       7   horse
3   2       2   8       3   duck
4   4       4   2       1   mouse

从上述例子可知,标识各列名称的表头位于CSV文件的第一行,但一般情况并非如此,往往CSV文件的第一行就是列表数据。

#1.会把第一行数据当作表头
csvframe2 = pd.read_csv('mycsv02.csv')
csvframe2
>>
    1   5   2   3   cat
0   2   7   8   5   dog
1   3   3   6   7   horse
2   2   2   8   3   duck
3   4   4   2   1   mouse

#2.对于没有表头的这种情况,使用heder选项,将其值置为None,pandas会为其添加默认表头
csvframe3 = pd.read_csv('mycsv02.csv',header=None)
csvframe3
>>
    0   1   2   3   4
0   1   5   2   3   cat
1   2   7   8   5   dog
2   3   3   6   7   horse
3   2   2   8   3   duck
4   4   4   2   1   mouse

#此外,还可以使用names选项指定表头,直接把存有各列名称的数组赋值给它即可。
csvframe4 = pd.read_csv('mycsv02.csv',names=['white','red','blue','green','animal'])
csvframe4
>>
    white   red blue    green   animal
0   1       5   2       3   cat
1   2       7   8       5   dog
2   3       3   6       7   horse
3   2       2   8       3   duck
4   4       4   2       1   mouse

用RegExp解析TXT文件:

有时要解析的数据文件不是以逗号或分号分隔的。对于这种情况,正则表达式就能派上用场。可以使用sep选项指正正则表达式,在read_table()函数内使用。

例如,通配符\s*,就是指匹配多个空格或制表符。

常用的通配符请见下标:

这里写图片描述

#1.排除 空白字符(空格或制表符)
ch05_04.txt
>>
white   red   blue   green
1       5       2       3
2       7       8       5
3       3       6       7

read_table('ch05_04.txt',sep='\s*')
>>
white   red   blue   green
1       5       2       3
2       7       8       5
3       3       6       7

#2.排除 非数字字符
cho5_05.txt
>>
000END123AAA122
001END124BBB321
002END125CCC333

read_table('ch05_05.txt',sep='\s*')
>>
    0   1   2
0   0   123 122
1   1   124 321
2   2   125 333

#3.skiprows排除多余的行,排除前5行谢skiprows=5;排除第五行,写作skiprows=[5]
ch05_06.txt
>>
########### LOG FILE ############
This file has been gemerated 
  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值