文章目录
其他
!type f:\test\News\DataAnalyst.csv # 查看文件内容、格式
!type f:\test\demo.json
!dir # 查看目录下,文件名称
list(open('demo.csv')) # 打开查看文件
pd.read_table()
pd.read_table('文件路径/demo.txt',
sep='\s+', # 指明分隔符为 多个空行
delimiter=None,
header='infer',#读取哪一行为columns
names=None,#字段名
index_col=0, # 读取某列为index
parse_dates=False,#哪个字段读取为时间类型
date_parser=None,#日期解析器,即format
pd.read_csv()
查看文件布局
list(open('demo.csv'))
读取
pd.read_csv('f:/test/demo.csv',
index_col=0, # 读取某列为index
index_col=['col1','col2'], # 读取多重索引
encoding='gbk', # 编码格式
header=None, # 用作列名的行
names=列表, # 自定义列名
dtype={
'col1':int,'col2':np.float64}, # 设置列的数据类型
usecols=[1,2,3], # 只读取某几列['col1,'col2']
skiprows=[0,2], #跳过 1、3行,skiprows=3:跳过前3行
skipfooter=2, # 跳过最后2行,
engine='python', # 指明skip_footer实现的方式
nrows=5, # 只读5行数据(不包含标题)
na_values=['NULL',999,'np.nan'], # 指定这些值读取为缺失值
na_values={
'col1':['NULL','demo'],'col3':['a','c']}, # 字典指定列中特定值为缺失值
parse_dates=False, # 尝试解析为日期
#【True】:解析所有列
#【列表或元组】
delimiter=',', # 用于分隔字段的单字符字符串,默认为','
skipinitialspace=False, # 忽略分隔符后面的空白符
)
参数
参数 | 说明 |
---|---|
parse_dates | 解析为日期,默认False。 True:尝试解析所有列 一组列名、列号:解析指定列 列表的元素为列表或元组:将多格列组合到一起再进行日期解析 |
converters | {‘col1’:f}:对col1列的所有值应用函数f |
dayfirst | 解析有歧义日期时,看做国际格式,默认False 23/6/2018→June,23,2018 |
engine='python' |
解析方式 分析引擎 C或python C引擎快 python引擎:更能完备 |
逐块读取
chunker = pd.read_csv('demo.csv',chunksize=1000)
tot = pd.Series([])
for piece in tot:
tot = tot.add(piece['key']