读写文本格式的数据
--read_csv 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
--read_table 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符("\t")
--read_fwf 读取定宽列格式数据(也就是说,没有分隔符)
--read_clipboard 读取剪贴板中的数据,可以看做read_table的剪贴板版。在将网页转换为表格时很有用
import pandas as pd
from pandas import Series,DataFrame
cd L:\czz
!type ch06\ex1.csv
df=pd.read_csv('L:\czz\ch06\ex1.csv')
pd.read_table('L:\czz\ch06\ex1.csv',sep=',')
自定义列名
!type ch06\ex2.csv
pd.read_csv('ch06\ex2.csv',header=None)
pd.read_csv('ch06\ex2.csv',names=['a','b','c','d','message'])
把列当做索引
names=['a','b','c','d','message']
pd.read_csv('ch06\ex2.csv',names=names,index_col='message')
将多个列作为一个层次化索引
!type ch06\csv_mindex.csv
parsed=pd.read_csv('ch06\csv_mindex.csv',index_col=['key1','key2'])
用正则表达式作为分隔符
list(open('ch06\ex3.txt'))
result=pd.read_table('ch06\ex3.txt',sep='\s+') ??
跳过文件的指定行
!type ch06\ex4.csv
pd.read_csv('ch06\ex4.csv',skiprows=[0,2,3])
缺失值处理
!type ch06\ex5.csv
result=pd.read_csv('ch06\ex5.csv')
pd.isnull(result)
result=pd.read_csv('ch06\ex5.csv',na_values=['NULL'])
指定一组字符串用于表示缺失值
result=pd.read_csv('ch06\ex5.csv',na_values=['NULL','foo'])
为各列指定不同的NA标记值
sentinels={'message':['foo','NA'],'something':['two']}
--read_csv 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
--read_table 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符("\t")
--read_fwf 读取定宽列格式数据(也就是说,没有分隔符)
--read_clipboard 读取剪贴板中的数据,可以看做read_table的剪贴板版。在将网页转换为表格时很有用
import pandas as pd
from pandas import Series,DataFrame
cd L:\czz
!type ch06\ex1.csv
df=pd.read_csv('L:\czz\ch06\ex1.csv')
pd.read_table('L:\czz\ch06\ex1.csv',sep=',')
自定义列名
!type ch06\ex2.csv
pd.read_csv('ch06\ex2.csv',header=None)
pd.read_csv('ch06\ex2.csv',names=['a','b','c','d','message'])
把列当做索引
names=['a','b','c','d','message']
pd.read_csv('ch06\ex2.csv',names=names,index_col='message')
将多个列作为一个层次化索引
!type ch06\csv_mindex.csv
parsed=pd.read_csv('ch06\csv_mindex.csv',index_col=['key1','key2'])
用正则表达式作为分隔符
list(open('ch06\ex3.txt'))
result=pd.read_table('ch06\ex3.txt',sep='\s+') ??
跳过文件的指定行
!type ch06\ex4.csv
pd.read_csv('ch06\ex4.csv',skiprows=[0,2,3])
缺失值处理
!type ch06\ex5.csv
result=pd.read_csv('ch06\ex5.csv')
pd.isnull(result)
result=pd.read_csv('ch06\ex5.csv',na_values=['NULL'])
指定一组字符串用于表示缺失值
result=pd.read_csv('ch06\ex5.csv',na_values=['NULL','foo'])
为各列指定不同的NA标记值
sentinels={'message':['foo','NA'],'something':['two']}
pd.read_csv('ch06\ex5.csv',na_values=sentinels)
----------------------------------------
----------------------------------------