Python数据科学包（五）-----载入数据和时间序列

最新推荐文章于 2024-06-21 16:39:28 发布

mangogogo321

最新推荐文章于 2024-06-21 16:39:28 发布

阅读量454

点赞数

分类专栏：笔记文章标签：数据库 python 大数据

本文链接：https://blog.csdn.net/mangogogo321/article/details/107829837

版权

本文介绍了如何使用Python的Pandas库加载数据，包括从各种源如二进制、Excel、JSON和数据库中读取数据，处理不规则数据，以及缺失值的处理。此外，还深入探讨了时间序列分析，如时间戳、日期间隔、时间频率转换、重采样等，适合于金融数据和服务器日志分析。

摘要由CSDN通过智能技术生成

文章目录

一. 载入数据到Pandas

索引：将一个列或多个列读取出来构成 DataFrame，其中涉及是否从文件中读取索引以及列名
类型推断和数据转换：包括用户自定义的转换以及缺失值标记
日期解析
迭代：针对大文件进行逐块迭代。这个是Pandas和Python原生的csv库的最大区别
不规整数据问题：跳过一些行，或注释等等

索引及列名

df = pd.read_csv('data/ex1.csv')
df = pd.read_csv('data/ex1.csv', sep=',')
##列名缺失
pd.read_csv('data/ex2.csv', header=None)
# 指定列名
pd.read_csv('data/ex2.csv', header=None, names=['a', 'b', 'c', 'd', 'msg'])
# 指定行索引
pd.read_csv('data/ex2.csv', header=None, names=['a', 'b', 'c', 'd', 'msg'], index_col='msg')
# 多层行索引
pd.read_csv('data/ex2.csv', header=None, names=['a', 'b', 'c', 'd', 'msg'], index_col=['msg', 'a'])

处理不规则的分隔符

# 正则表达式
pd.read_table('data/ex3.csv', sep='\s+')

缺失值处理

pd.read_csv('data/ex5.csv', na_values=['NA', 'NULL', 'foo'])
pd.read_csv('data/ex5.csv', na_values={
   'message': ['foo', 'NA'], 'something': ['two']})

逐块读取数据

pd.read_csv('data/ex6.csv', nrows=10)
# 统计每个 key 出现的次数
tr = pd.read_csv('data/ex6.csv', chunksize=1000)

key_count = pd.Series([])
for pieces in tr:
    key_count = key_count.add(pieces['key'].value_counts(), fill_value=0)
key_count = key_count.sort_values(ascending=False)
key_count[:10]

保存数据到磁盘

df = pd.read_csv('data/ex5.csv')
df.to_csv('data/ex5_out.csv'

最低0.47元/天解锁文章

mangogogo321

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录