上一篇文章我记录了自己在入门 Python 学习的一些基础内容以及实际操作代码时所碰到的一些问题。
这篇我将会记录我在学习和运用 Python 进行数据分析的过程:介绍 Numpy 和 Pandas 两个包
运用 Numpy 和 Pandas 分析一维、二维数据
数据分析的基本过程
实战项目【用 Python 分析朝阳医院2018季度的药物销售数据】
一、简单介绍 Numpy 和 Pandas 两个包
NumPy 和 pandas 是 Python 常见的两个科学运算的包,提供了比 Python 列表更高级的数组对象且运算效率更高。常用于处理大量数据并从中提取、分析有用指标。
NumPy 是 Numerical Python 的简称, 它是目前 Python 数值计算中最为重要的基础包。大多数计算包都提供了基于 NumPy 的科学函数功能,将 NumPy 的数组对象作为数据交换的通用语。NumPy 的核心是 ndarray 对象,它封装了 Python 的原生数据类型的N维数组。NumPy 创建的数组在创建时就要有固定大小,数组元素需要有相同的数据类型,NumPy 也可以像Python 数组一样使用切片。矢量化和广播是 Numpy 的特性。
pandas 所包含的数据结构和数据梳理工具的设计使得在 Python 中 进行数据清晰和分析非常快捷。pandas 经常是和其它数值计算工具,比如 NumPy 和 SciPy,以及数据可视化工具比如 matplotlib 一起使用的。 pandas 支持大部分 NumPy 语言风格的数组计算。pandas 可以直观的描述一维和二维数据结构,分别是 Series 对象和 DataFrame 对象,理解起来很直观清晰。pandas 可以处理多种不同的数据类型,可以处理缺失数据,可以分组和聚合,也支持切片功能。
二、运用 NumPy 和 pandas 分析一维、二维数据
首先在 conda 中安装这两个包,安装命令:
conda install numpy, pandas
'''Install two packages in conda, installation command:conda install numpy, pandas'''
# import numpy package
import numpy as np
# import pandas package
import pandas as pd
运用 NumPy 分析一维数据
1.1 定义一维数组:
定义一维数组 array,参数传入的是一个列表 [2,3,4,5]
'''
Definition:
One dimension array, parameters passed was a list[2,3,4,5]
'''
a = np.array([2,3,4,5])
1.2 查询:
# check items
a[0]2
1.3 切片访问 - 获取指定序号范围的元素
# section acess: Acquired items from designated range series number
# a[1:3] Acquired items from series no. 1 to series no.3
a[1:3]array([3, 4])
1.4 查询数据类型:
'''
dtype detail info link reference:
https://docs.scipy.org/doc/numpy-1.10.1/reference/arrays.dtypes.html
'''
# Check data types
a.dtypedtype('int32&#