在这一篇,我们会具体介绍如何进行数据分析。
数据科学分析可分为以下有10大类:
1.指导性分析 Descriptive Analysis
2.预测模型 Predictive Model
3.趋势分析 Trend Analysis
4. 聚类分析 Clustering
5.分类 Classifying
6. 异常现象分析 Anomalies
7. 降维 Dimension Reduction
8.特征选择和创建 Feature Selection and Creation
9. 验证模型 Validating Models
10. 融合模型 Aggregating Models
那下面我们来具体的介绍一下每个类别的分析:
1. 指导性分析 Descriptive Analysis
一般情况下我们会通过数据成像的方式来初步进行指导性分析。指导性分析的数据成像会分为以下4种类型。
1. 钟形曲线(Bell Curve) :钟形曲线理论上的正态分布曲线,数据曲线是一条中间高,两边逐渐下降并且完全对称的曲线。
2. 正偏态(Positive Skew):正偏态分布不对称。分布高峰偏左,长尾向右延伸的偏态分布成为正偏态。
3. 负偏态(Negitave Skew) : 又称“左偏态” 是指在一个不对称或者偏态的分布图中,次数分布的高峰偏右,长尾则从有主见延申到左边。
4. U型曲线(U-Shape): 整个图像成字母U的一种曲线。