python|数据分析

1 数据分析简介

  • 数据获取、数据清洗、数据分析挖掘、数据可视化
  • python库丰富,函数众多,便于集成

之前做的数据分析小平台👇
https://blog.csdn.net/qq_42752651/article/details/106519001

2 工具简介

推荐书籍
在这里插入图片描述

2.1 numpy

2.1.1 作用

numpy = Numerical Python
①快速高效的多维数组对象ndarray
②用于对数组执行元素级计算以及直接对数组执行数学运算的函数
③用于读写硬盘上基于数组的数据集的工具
④线性代数运算、傅里叶变换,以及随机数生成
⑤用于将C、C++、Fortran代码集成到Python的工具

2.1.2 学习资源

官网/菜鸟……
https://numpy.org/
https://numpy.org/doc/stable/reference/generated/numpy.r_.html
https://www.runoob.com/numpy/numpy-tutorial.html

2.1.3 安装

pip install numpy
pip install -i https://pypi.douban.com/simple numpy

两种都可,但推荐第二种安装方法(镜像),快,一般不会出错

2.1.4 常用方法

1、多维数组对象 ndarray
存放同类型元素的多维数组

import numpy as np    # 引用numpy包,将其称为np,便于后续使用
a = np.array([1,2,3]) 
# a: [ 1 ,  2,  3]
a = np.array([[1,  2],  [3,  4]])  
# a:[[1, 2] [3, 4]]

# 创建全0数组
np.zeros(5)
# [0, 0, 0, 0, 0]

# 创建全1数组
np.ones(5)
# [1, 1, 1, 1, 1]

# 创建空数组(没有具体数值)
# 注:empty中返回的数值不是0,而是未初始化数值
np.empty(3)

在这里插入图片描述
2、切片和索引

# slice函数
a = np.arange(10)
s = slice(2,7,2)   # 从索引 2 开始到索引 7 停止,间隔为2
# [2  4  6]

整数数组索引

x = np.array([[1,  2],  [3,  4],  [5,  6]]) 
y = x[[0,1,2],  [0,1,0]] 
# [1  4  5]

布尔索引
在这里插入图片描述

3、数组操作
numpy.reshape:不改变数据,改变形状

a = np.arange(8)
# a: [0 1 2 3 4 5 6 7]
b = a.reshape(4,2)
# b:[[0 1]
# [2 3]
# [4 5]
# [6 7]]

numpy.transpose :对换数组维度

a = np.arange(12).reshape(3,4)
#a: [[ 0  1  2  3]
# [ 4  5  6  7]
# [ 8  9 10 11]]
b = np.transpose(a))
# b:[[ 0  4  8]
# [ 1  5  9]
# [ 2  6 10]
# [ 3  7 11]]

2.2 pandas

2.2.1 作用

基于NumPy构建,让以NumPy为中心的应用变得更加简单。
①提供能够快速便捷地处理结构化数据的大量数据结构和函数
②使Python成为强大而高效的数据分析环境
③对象DataFrame,面向列(column-oriented)的二维表结构,含有行标和列标
④兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能

2.2.2 学习资源

官网
https://pandas.pydata.org/pandas-docs/stable/

2.2.3 安装

pip install pandas
pip install -i https://pypi.douban.com/simple pandas

2.2.4 常用方法

1、Series
类似于一维数组的对象
一组数据(各种NumPy数据类型) + 一组与之相关的数据标签(即索引)

obj = Series([4,7,-5,3],index=['a','b','c','d'])
# a.b.c.d分别对应4.5.-7.3

a    4
b    7
c   -5
d    3

2、DataFrame
表格型数据结构
含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。
有行索引、列索引,可被看做由Series组成的字典(共用同一个索引)。

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
# 行索引0 1 2 3 4 ,列索引pop state year
    pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002

3、处理缺失值
在这里插入图片描述
4、索引、数据统计
……

2.3 正则表达式

菜鸟
https://www.runoob.com/python/python-reg-expressions.html

具体内容戳链接👇
https://blog.csdn.net/qq_42752651/article/details/106980800

3 python在数据分析中的应用

3.1 数据采集与预处理(数据清洗)

1、药物拆分,形成0-1矩阵数据;
2、对照药物同异名,进行药物名称规范;
3、利用正则表达式,过滤掉错误字符,如炙蜈蚣条->炙蜈蚣;过滤中药制法,如炙蜈蚣->蜈蚣

  • excel表格->矩阵
  • 矩阵中空值处理
  • 数据元素过滤、筛选

3.2 数据挖掘与分析

1、认识数据
2、获取数据
3、数据处理,获得有价值的数据

3.3 数据分析可视化

以图表的形式展现数据, 增强数据的展现⼒,
柱状图、饼状图、直⽅图、折线图、散点图等
在这里插入图片描述

  • matplotlib
  • Bootstrap (前端框架)
  • Echarts (前端绘图)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值