理解数据
需要分析的数据分为:
- 结构化的数据集合
- 半结构化的数据集合
- 非结构化的数据集合
大部分数据都能被转化为更适合分析和建模的结构化形式。
主要的的结构化数据
- 表格型数据
其中各列为不同类型的数据(字符串、数值、日期等);
eg:
保存在关系型数据库中的数据;
以制表符/逗号为分隔符的文本文件中的数据。 - 多维数据(矩阵)
多种形式:一维、二维、三维; - 通过关键里相互联系的多个表
如sql中的主外键 - 间隔平均或不平均的时间序列
数据分析
概念:
数据分析是指用适当的统计方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
方法:
- 描述型分析;
- 诊断型分析;
- 预测型分析;
- 指令型分析;
一般流程:
- 需求分析;
- 数据获取;
- 数据预处理;
- 数据分析与建模;
- 模型评价和优化;
- 部署。
数据分析工具python
主流的数据分析语言:R/Python
Python的优势:
重要的Python数据分析类库
NumPy
Pandas
Matplotlib
SciPy
scikit-learn
stats models