【Python实战】Pandas：让你像写SQL一样做数据分析（一）

浅唱书令

已于 2023-06-01 10:54:52 修改

阅读量226

点赞数

分类专栏：大数据见微文章标签： python 数据分析 pandas sql 开发语言

于 2016-06-30 18:08:00 首次发布

本文链接：https://blog.csdn.net/keyboardlabourer/article/details/130980535

版权

大数据见微专栏收录该内容

39 篇文章 2 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了如何使用Pandas库进行数据分析，包括类似SQL的select、where、distinct、group、as、join、order、top等操作。重点讨论了DataFrame的使用，如loc和iloc选择数据，drop_duplicates去重，groupby聚合，以及自定义操作。还展示了实战案例，如计算环比增长和执行差集操作。

摘要由CSDN通过智能技术生成

1. 引言

Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类：

Series，1维序列，可视作为没有column名的、只有一个column的DataFrame；
DataFrame，同Spark SQL中的DataFrame一样，其概念来自于R语言，为多column并schema化的2维结构化数据，可视作为Series的容器(container)；
Panel，为3维的结构化数据，可视作为DataFrame的容器；

DataFrame较为常见，因此本文主要讨论内容将为DataFrame。DataFrame的生成可通过读取纯文本、Json等数据来生成，亦可以通过Python对象来生成：

import pandas as pd
import numpy as np


df = pd.DataFrame({'total_bill': [16.99, 10.34, 23.68, 23.68, 24.59],
                   'tip': [1.01, 1.66, 3.50, 3.31, 3.61],
                   'sex': ['

了解本专栏