为智能分布式机器学习系统设计高层架构,该系统以Spark作为其核心计算引擎。
现代的大数据场景包含如下需求:
1) 必须与系统的其他组件整合,尤其是数据的收集和存储系统、分析和报告以及前端应用。
2) 易于扩展且与其他组件相对独立。同时具备良好的水平和垂直可扩展性。
3) 高效计算,支持机器学习和迭代式分析应用。
4) 同时支持批处理和实时处理。
Spark作为一个框架本身能满足上述需求,还需要确保基于它设计的机器学习系统也满足上述需求,保证算法的设计不存在能引发系统故障的瓶颈。
1. 为什么要使用机器学习?
1) 数据规模大。完全依靠人工处理跟不上发展;
2) 机器学习和统计模型等基于模型的方式能发现人类难以发现的模式(因为数据量级和复杂度过高);
3) 基于模型的方式能避免个人或是情感上的偏见;