1,需要考虑数据计算的时空复杂度。
2,输入特征通常是混合的,有定性的(二类,多类),定量的。
3,数据通常是不完整的(有缺失值)。
4,数据分布通常是长尾的,或者高度倾斜的。
5,有外延点或者杠杆点的存在。
6,数据度量的不一致性。
7,高维问题。
8,特征之间的关联性,如多重共线性的问题。
同一个方法很难解决所有问题。下面这张图是对各种方法的比较;摘自ESL第十章。
1,需要考虑数据计算的时空复杂度。
2,输入特征通常是混合的,有定性的(二类,多类),定量的。
3,数据通常是不完整的(有缺失值)。
4,数据分布通常是长尾的,或者高度倾斜的。
5,有外延点或者杠杆点的存在。
6,数据度量的不一致性。
7,高维问题。
8,特征之间的关联性,如多重共线性的问题。
同一个方法很难解决所有问题。下面这张图是对各种方法的比较;摘自ESL第十章。