作者:Will Badr
编译:ronghuaiyang
导读
鹳会接生孩子吗?虽然它已经在相关性和因果关系的背景下得到了理论上的证明,但本文探讨了相关性以及它与因果关系的不同之处。
器学习模型的好坏取决于你所拥有的数据。这就是为什么数据科学家可以花费数小时对数据进行预处理和清理。他们只选择对结果模型的质量贡献最大的特征。这个过程称为“特征选择”。特征选择是选择能够使预测变量更加准确的属性,或者剔除那些不相关的、会降低模型精度和质量的属性的过程。
数据与特征相关被认为是数据预处理中特征选择阶段的一个重要步骤,尤其是当特征的数据类型是连续的。那么,什么是数据相关性呢?
数据相关性:是一种理解数据集中多个变量和属性之间关系的方法。使用相关性,你可以得到一些见解,如:
- 一个或多个属性依赖于另一个属性或是另一个属性的原因。
- 一个或多个属性与其他属性相关联。