Python数据分析之数据加载

这篇博客介绍了Python数据分析中如何使用pandas库加载不同类型的数据文件,包括文本文件(如csv和txt)、HTML文件、XML文件、Excel文件、JSON文件以及HDF5文件。此外,还提及了数据结构中的Series和DataFrame,强调它们在数据分析中的重要性。
摘要由CSDN通过智能技术生成

  当从外部的数据源中抽取出相应的数据,并将数据存入文件或数据库中之后,接下来就是将数据转换为pandas库可以进行操作的数据结构对象(只有转换,才能使用pandas库提供的各种操作来对数据进行分析)。

  ok,因为需要转换为pandas中可以操作的数据结构,所以需要先了解pandas的两个核心数据结构:Series和DataFrame。

一:Serise

  Serise用来表示一维数据结构,由两个相互关联的一维数组组成的(主数组和Index数组),主数组中的数据(表示标签对应的元素)是任意类型的,而Index数组中的数据(表示标签)不是任意类型都可以。、

  Serise定义:

>>> import pandas as pd
>>> s=pd.Series([1,2,3,4])
>>> s
0    1
1    2
2    3
3    4
dtype: int64
>>> s1=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
>>> s1
a    1
b    2
c    3
d    4
e    5
dtype: int64
>>> s1.values
array([1, 2, 3, 4, 5], dtype=int64)
>>> s1.index
Index(['a', 'b', 'c', 'd', 'e'], dtype='object'
>>> p=pandas.Series([4,5,6,6])
>>> pandas.Series(p)
0    4
1    5
2    6
3    6
dtype: int64
>>> dic={'a':1,'b':2,'c':3}
>>> pandas.Series(dic)
a    1
b    2
c    3
dtype: int64

二:DataFrame

DataFrame是用来表示二维数据结构(如二维表),由一个类似于Series的标签的一维数组和一个二维数组(包含了一系列列标签和列标签关联的一列数据)。

还可以认为DataFr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值