文章目录
1 数据分析简介
- 数据获取、数据清洗、数据分析挖掘、数据可视化
- python库丰富,函数众多,便于集成
之前做的数据分析小平台👇
https://blog.csdn.net/qq_42752651/article/details/106519001
2 工具简介
推荐书籍
2.1 numpy
2.1.1 作用
numpy = Numerical Python
①快速高效的多维数组对象ndarray
②用于对数组执行元素级计算以及直接对数组执行数学运算的函数
③用于读写硬盘上基于数组的数据集的工具
④线性代数运算、傅里叶变换,以及随机数生成
⑤用于将C、C++、Fortran代码集成到Python的工具
2.1.2 学习资源
官网/菜鸟……
https://numpy.org/
https://numpy.org/doc/stable/reference/generated/numpy.r_.html
https://www.runoob.com/numpy/numpy-tutorial.html
2.1.3 安装
pip install numpy
pip install -i https://pypi.douban.com/simple numpy
两种都可,但推荐第二种安装方法(镜像),快,一般不会出错
2.1.4 常用方法
1、多维数组对象 ndarray
存放同类型元素的多维数组
import numpy as np # 引用numpy包,将其称为np,便于后续使用
a = np.array([1,2,3])
# a: [ 1 , 2, 3]
a = np.array([[1, 2], [3, 4]])
# a:[[1, 2] [3, 4]]
# 创建全0数组
np.zeros(5)
# [0, 0, 0, 0, 0]
# 创建全1数组
np.ones(5)
# [1, 1, 1, 1, 1]
# 创建空数组(没有具体数值)
# 注:empty中返回的数值不是0,而是未初始化数值
np.empty(3)
2、切片和索引
# slice函数
a = np.arange(10)
s = slice(2,7,2) # 从索引 2 开始到索引 7 停止,间隔为2
# [2 4 6]
整数数组索引
x = np.array([[1, 2], [3, 4], [5, 6]])
y = x[[0,1,2], [0,1,0]]
# [1 4 5]
布尔索引
3、数组操作
numpy.reshape:不改变数据,改变形状
a = np.arange(8)
# a: [0 1 2 3 4 5 6 7]
b = a.reshape(4,2)
# b:[[0 1]
# [2 3]
# [4 5]
# [6 7]]
numpy.transpose :对换数组维度
a = np.arange(12).reshape(3,4)
#a: [[ 0 1 2 3]
# [ 4 5 6 7]
# [ 8 9 10 11]]
b = np.transpose(a))
# b:[[ 0 4 8]
# [ 1 5 9]
# [ 2 6 10]
# [ 3 7 11]]
2.2 pandas
2.2.1 作用
基于NumPy构建,让以NumPy为中心的应用变得更加简单。
①提供能够快速便捷地处理结构化数据的大量数据结构和函数
②使Python成为强大而高效的数据分析环境
③对象DataFrame,面向列(column-oriented)的二维表结构,含有行标和列标
④兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能
2.2.2 学习资源
2.2.3 安装
pip install pandas
pip install -i https://pypi.douban.com/simple pandas
2.2.4 常用方法
1、Series
类似于一维数组的对象
一组数据(各种NumPy数据类型) + 一组与之相关的数据标签(即索引)
obj = Series([4,7,-5,3],index=['a','b','c','d'])
# a.b.c.d分别对应4.5.-7.3
a 4
b 7
c -5
d 3
2、DataFrame
表格型数据结构
含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。
有行索引、列索引,可被看做由Series组成的字典(共用同一个索引)。
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
# 行索引0 1 2 3 4 ,列索引pop state year
pop state year
0 1.5 Ohio 2000
1 1.7 Ohio 2001
2 3.6 Ohio 2002
3 2.4 Nevada 2001
4 2.9 Nevada 2002
3、处理缺失值
4、索引、数据统计
……
2.3 正则表达式
菜鸟
https://www.runoob.com/python/python-reg-expressions.html
具体内容戳链接👇
https://blog.csdn.net/qq_42752651/article/details/106980800
3 python在数据分析中的应用
3.1 数据采集与预处理(数据清洗)
1、药物拆分,形成0-1矩阵数据;
2、对照药物同异名,进行药物名称规范;
3、利用正则表达式,过滤掉错误字符,如炙蜈蚣条->炙蜈蚣;过滤中药制法,如炙蜈蚣->蜈蚣
- excel表格->矩阵
- 矩阵中空值处理
- 数据元素过滤、筛选
3.2 数据挖掘与分析
1、认识数据
2、获取数据
3、数据处理,获得有价值的数据
- 关联规则 戳我看具体介绍(o゚v゚)ノ
- 聚类分析
- 层次分析
- ……
3.3 数据分析可视化
以图表的形式展现数据, 增强数据的展现⼒,
柱状图、饼状图、直⽅图、折线图、散点图等
- matplotlib
- Bootstrap (前端框架)
- Echarts (前端绘图)