pandas的基础

最新推荐文章于 2022-06-19 16:41:58 发布

赵小越

最新推荐文章于 2022-06-19 16:41:58 发布

阅读量323

点赞数 1

分类专栏：传统机器学习分类算法的学习

本文链接：https://blog.csdn.net/angela2016/article/details/85292578

版权

本文介绍了pandas库的基础知识，重点关注Series和DataFrame两种主要数据结构。Series类似于字典，具有默认和自定义索引，可通过字典创建。DataFrame是多特征数据，可以由Series拼接、字典或numpy数组创建。文中详细阐述了这两个数据结构的创建、操作，包括切片、索引、运算以及文件读取等核心功能。

摘要由CSDN通过智能技术生成

一个好的机器学习者，首先是一个更好的数据分析者，对于数据分析而言，一个很好用的开源库可以说是pandas库了。而pandas则是基于numpy,再开发的。学好pandas,走遍天下都不怕。

对于pandas而言，有三大数据结构，其中最主要的二个数据结构，分别为series和dataframe，还有一个为Panel。其实主要说的还是前二种。贴一个学习的链接。https://www.yiibai.com/pandas/python_pandas_data_structures.html#article-start

对于Series而言：

是一维的数据。其实对于series而言，类似于字典，也就是键值对。

因为pandas是建立在numpy之上的，所以有很多的性质，二者是类似的。还是基于几个方面来介绍Series。

一，Series的创建

1）采用默认的索引的方式来创建

2）采用自定义的方式来创建（默认的索引，implicit index;自定义的索引，explicit index）

3）通过字典来创建(通过name来给series数据起名字)

import numpy as np
import pandas as pd
data = pd.Series([1, 2, 3.0, np.nan])
print list(data.items())
print data.index
print data.values
print data
data1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print data1['a'], data1[0]
dic = {'beijing': 100, 'tianjin': 120, 'shanghai': 150}
data2 = pd.Series(dic)
print data2['beijing'], data2[0]