机器学习项目清单(3)
… …
-
研究数据以获取灵感
… …
对数据的研究不需要额外再进行讨论,按照流水线般的数据研究工作就可以。大致包含部分:数据之前准备工作、数据探索准备工作、常用的几个分析方法、数据总结。然后这个工作需要因为对数据有可能进行补充,所以是一个需要循环的工作。
… -
数据之前的准备工作
在之后的所有项目的甘特图当中,这个部分预先补充,进行操作。
- 创建数据副本
- 如果数据集很大,创建一个探索集(要注意分层抽样),如果数据集不大,可以采用副本直接进行分析。分析的工作确保数据具有一定的代表性,并且易操作,时间耗费小。
- 创建jupyter notebook记录完整的数据分析过程与思路。
- 数据探索准备工作
- 查看基本的数据维度:名字、数据类型
- 基本摘要:describe()
- 缺失值:isnull()、缺失值占比
- 异常值:3O之外为异常值、超过(Q4-Q3)*1.5距离也定义为异常值。
- 分布类型(注意极少会有高斯分布):高斯分布(正态分布)、统一分布(指数模型家族)、对数分布。
- 常用的几个分析方法:1. 可视化数据
- 在有地理位置的数据中可以进行地理位置的可视化.
- 散点图进行数据可视化可以包含较多信息(大小、颜色,灰度)
人对图像能进行更好的识别与理解,所以可视化数据重要。参数设置可以进行研究
- 常用的几个分析方法:2. 相关性分析
- 相关性分析可以使用皮尔逊相关系数,但是注意皮尔逊相关系数仅表示线下相关性。corr()
- 相关性较强的可使用scatter_matrix进行属性值相关性图,通过图表展示相关性。
注1:相关性系数强度:0-0.2不线性相关;0.2-0.4弱相关;0.4-0.6中等相关;0.6-0.8强相关;0.8-1.0 极强相关。
注2:皮尔逊相关系数仅代表线性相关性,但是当其为0的时候,并不代表完全不相关,有可能是非线性相关。
-
常用的几个分析方法:3. 其他属性的组合
对于一些属性相关性不强的时候,可以进行属性的组合,创建出新的属性,这些属性可以更好的曝露给机器学习算法。这个过程在数据维度很多的情况下,可以使用主成分分析与核主成分分析等等方法进行维度拓展,这个是后面维度降维或者添加多项式特征的时候进行多次循环讨论的步骤。组合维度也可以作为学习算法的参数,在随机搜索过程中进行验证。
(这个部分后面再讨论) -
数据总结
- 对于监督学习,要确认label属性
- 针对一些数据维度,进行数据转化(归一化或者标准化)
- 确认一些新的维度,以及可能需要的新的数据维度的补充。
- 记录数据探查过程中的思路
- 研究如何手动解决一个问题(这个问题虽然在机器学习项目中相当于被抛弃的思想,但是回顾如何手动解决,是思想上的完备性。)
… …
今天写了机器学习项目清单的,探查数据以获取数据的灵感,这部分在未来的机器学习汇报中的展示占比较重,但其思想内容要结合业务展开。
… …
江南无所有,聊赠一枝春
20210112 18:48.