数据分析
-
数据分析开源库
-
Numpy (数学库)
-
作用:用于数据计算
-
包含:
-
N维数组对象ndarray
-
广播功能函数
-
整合C/C++Fortran代码工具
-
线性代数、傅里叶变换、随机数生成
-
-
-
Pandas(分析结构化数据工具集)
-
概述:基础是Numpy(提供高性能矩阵运算)
-
作用:用于数据挖掘和数据分析,同时也提供数据清晰功能
-
利器:Series,类似于一维数组对象
-
DataFrame ,表格型数据结构
-
-
Matplotlib(数据可视化开源python库)
-
概述:使用最多的图形绘图库,可以创建静态,动态和交互式图表
-
-
Seaborn(数据可视化开源库)
-
概述:Matplotilib的改良版,集成了pandas数据结构,通过更简洁API来绘制更加丰富,具有吸引力的图像
-
建议:在面向数据集API,与padans配合使用,比Matplotlib更方便
-
-
SKlearn(基于Python语言的机器学习工具)
-
特点:
-
简单高效的数据挖掘和数据分析工具
-
可供大家在各种环境中重复使用
-
建立在NumPy,SciPy和Matplotlib上
-
-
-
Jupyter Notebook/Jupyter Lab(开源Web应用程序)
-
特点:
-
可创建和共享代码、公式、可视化图表、笔记文档
-
是数据分析学习和开发的首选开发环境
-
-
用途:
-
数据清理和转换、数值模拟
-
统计分析,数据可视化,机器学习
-
-
-
python做数据分析的优势
可高效完成数据分析相关全部工作
环境搭建
-
Anaconda安装
-
下载路径
-
Anaconda界面
-
Envlronments :包和虚拟环境管理
-
Learning :在线学习资源
-
Community:社区
-
-
包管理之通过命令安装
conda install 包名字 pip install 包名字
-
注意,使用pip时最好指定安装源:
-
阿里云:Simple Index
-
清华大学:Simple Index
-
中国科学技术大学 Simple Index
-
pip install 包名 -i Simple Index #通过阿里云镜像安装
-
-