之前一直想自学一下大数据,正好七月在线在做1元优惠购活动,所以机缘巧合开始学习,今天就对最近学习的pandas进行一个笔记梳理,以便后续回顾。本次课程主要学习了以下内容:
一. 简介
pandas 是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
通俗的说,pandas就是对表格对数据进行分析,它主要包括以下几个部分:
1. Series, 它是对一位数据的封装(key value pairs);
2. DataFrame,它是一个数据结构,可以看成是一个表格,是Series的容器;
3. Index, 索引;
4. Merge,append, Join,concat。
二. 常用操作
1.导入pandas库:
一般导入pandas时都会一起numpy,
import numpy as np
import pandas as pd
2.导入CSV/XLSX
df = pd.DataFrame(pd.read_csv("test.csv", header=1))
df = pd.DataFrame(pd.read_excel("test.xlsx"))
3. 维度查看
df.shape