第一章 python大数据分析概述
本章内容
1 . 理解数据
2 . 认识数据分析
3 . 数据分析工具Python
4 . 重要的Python数据分析类库
5 . 集成开发环境和文本编辑器
6 . 使用Jupyter Notebook
1.1 Python数据分析概述1
理解数据
需要分析的数据一般是结构化的、半结构化的、非结构化的数据集合 。 大部分数据集多能被转化为更加适合分析和建模的结构化形式 。
主要的结构化数据有 :
1 . 表格型数据 , 其中各列可能是不同的类型(字符串,数值,日期等),比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据 。
2 . 多维数据(矩阵),一维 、二维、三维等多种形式
3 . 通过关键列相互联系的多个表,如sql中的主外键
4 . 间隔平均或不平均的时间序列
1.2 Python 数据分析概述2
认识数据分析
数据分析的概念
数据分析是使用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程 。
【这一过程也是质量管理体系的支持过程 。 在实用中 ,数据分析可帮助人们做出判断,以便采取适当行动 。】
数据分析方法
1 . 描述型分析 : 描述发生了什么
2 . 诊断型分析 : 得出发生的原因
3 . 预测型分析 : 预测时间未来发生的可能性
4 . 指令型分析 : 应该采取什么措施
数据分析的一般流程
需求分析 → \rightarrow →数据获取 → \rightarrow