之前一直想自学一下大数据,正好七月在线在做1元优惠购活动,所以机缘巧合开始学习,今天就对最近学习的pandas进行一个笔记梳理,以便后续回顾。本次课程主要学习了以下内容:
一. 简介
pandas 是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
通俗的说,pandas就是对表格对数据进行分析,它主要包括以下几个部分:
1. Series, 它是对一位数据的封装(key value pairs);
2. DataFrame,它是一个数据结构,可以看成是一个表格,是Series的容器;
3. Index, 索引;
4. Merge,append, Join,concat。
二. 常用操作
1.导入pandas库:
一般导入pandas时都会一起numpy,
import numpy as np
import pandas as pd
2.导入CSV/XLSX
df = pd.DataFrame(pd.read_csv("test.csv", header=1))
df = pd.DataFrame(pd.read_excel("test.xlsx"))
3. 维度查看
df.shape
4. 每一列数据的格式
df.dtypes
5. 查看数据表的值
df.values
6. 查看列名称
df.columns
7. 更改列名称
df.rename(columns={“category”: “category-size”})
8.数据表合并
Merge,append, Join,concat
9. 设置索引列
df..set_index(“id”)
10.数据提取
主要用到的三个函数:loc,iloc和ix,loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。
11.简单的数据采样
df.sample(n=3)
以上只是一部分我觉得常用的函数,pandas是一个很强大的工具,如果需要去熟练它,光靠这么一节课是不行的,这堂课只是一个引导,让你知道pandas是干什么的,在什么场景你可能需要用到它,等真正需要用到的时候怎么去查询。