python数据分析 第6天 数据的加载,存储与文件格式

1  有些表格可能不是用固定的分隔符去分割字段的。

可以编写一个正则表达式来作为read_table的分隔符


2   可以使用skiprows跳过文件的行

3  对于缺失值的处理

读取文件的时候,可以通过设置  na_values=['  ']  来说明数据中的缺失值为什么字符


更进一步,可以使用字典来为各列指定不同的NA值


4




逐块读取文件

1  只想读取文件的一小部分或逐块对文件进行迭代

2  要想读取几行,通过nrows进行指定即可

3  要想逐块读取文件  设置 chunksize  行数


返回一个  TextParser 对象,然后我们可以迭代处理数据.并 使用Series的   .sort_values() 函数进行排序


将数据写出到文本格式

1   利用DataFrame的 to_csv方法,将数据写到另一个以都好为分隔符的文件中

data.to_csv('路径')

当然,可以通过  sep='  '    来设置分隔符

2  缺失值在结果中,会被表示为空字符串。可以使用 na_rep='  '  来标记

也可以 header=      index=      来设置是否含有标签

3 页可以只写出一部分列

4  Series也有一个to_csv方法,  可以写出文件

5  同理,也有一个  将CSV文件读取为Series的 方法


手工处理分隔符格式

对数据进行加载的时候,可能会接受畸形文件,所以需要手工处理


1  对于任何单字符分隔符文件,都可以使用csv模块。   传给csv.reader

2

下面是   csv.Dialect的属性




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值