Python数据科学包(五)-----载入数据和时间序列

本文介绍了如何使用Python的Pandas库加载数据,包括从各种源如二进制、Excel、JSON和数据库中读取数据,处理不规则数据,以及缺失值的处理。此外,还深入探讨了时间序列分析,如时间戳、日期间隔、时间频率转换、重采样等,适合于金融数据和服务器日志分析。
摘要由CSDN通过智能技术生成

一. 载入数据到Pandas

  • 索引:将一个列或多个列读取出来构成 DataFrame,其中涉及是否从文件中读取索引以及列名
  • 类型推断和数据转换:包括用户自定义的转换以及缺失值标记
  • 日期解析
  • 迭代:针对大文件进行逐块迭代。这个是Pandas和Python原生的csv库的最大区别
  • 不规整数据问题:跳过一些行,或注释等等

索引及列名

df = pd.read_csv('data/ex1.csv')
df = pd.read_csv('data/ex1.csv', sep=',')
##列名缺失
pd.read_csv('data/ex2.csv', header=None)
# 指定列名
pd.read_csv('data/ex2.csv', header=None, names=['a', 'b', 'c', 'd', 'msg'])
# 指定行索引
pd.read_csv('data/ex2.csv', header=None, names=['a', 'b', 'c', 'd', 'msg'], index_col='msg')
# 多层行索引
pd.read_csv('data/ex2.csv', header=None, names=['a', 'b', 'c', 'd', 'msg'], index_col=['msg', 'a'])

处理不规则的分隔符

# 正则表达式
pd.read_table('data/ex3.csv', sep='\s+')

缺失值处理

pd.read_csv('data/ex5.csv', na_values=['NA', 'NULL', 'foo'])
pd.read_csv('data/ex5.csv', na_values={
   'message': ['foo', 'NA'], 'something': ['two']})

逐块读取数据

pd.read_csv('data/ex6.csv', nrows=10)
# 统计每个 key 出现的次数
tr = pd.read_csv('data/ex6.csv', chunksize=1000)

key_count = pd.Series([])
for pieces in tr:
    key_count = key_count.add(pieces['key'].value_counts(), fill_value=0)
key_count = key_count.sort_values(ascending=False)
key_count[:10]

保存数据到磁盘

df = pd.read_csv('data/ex5.csv')
df.to_csv('data/ex5_out.csv'
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值