本章还是理论阶段,有一套完整清晰的理论对设计高层架构有着巨大作用。
大数据处理系统必备的特性
- 必须能与其他系统组件整合,数据收集系统、数据存储系统、前段web服务等等
- 必须易于扩展且与其它组建独立,理想情况下要兼具水平和垂直可扩展性
- 支持高校完成所需类型的计算,包含机器学习和迭代式分析应用
- 最好能同时支持批处理(离线处理)和实时处理
机器学习系统常应用在如下方面
- 个性化
- 目标营销和客户细分
- 预测建模与分析
机器学习模型分两类
- 监督学习
使用已标记的数据来学习,例如:推荐、回归、分类 - 无监督学习
使用无标记的数据来学习,例如:聚类、降维、特征提取
数据驱动的机器学习系统的组成
- 数据收集与存储
- 文件系统HDFS、S3
- SQL数据库MySQL Oracle DB
- 分布式NoSQL数据库HBase、Cassandra
- 搜索引擎Solr、Elasticsearch
- 流数据系统Kafka、Flume
- 数据清理与转换
- 数据过滤
- 数据缺失、不完整
- 处理可能的异常、错误值
- 合并多个数据源
- 数据汇总
- 模型训练与测试回路
模型训练、评估、交叉验证 - 模型部署与整合
模型周期性更新、实时更新 - 模型监控与反馈
避免用户陷入推荐循环,可以使用无偏见的数据来训练模型 - 选择处理方案(离线批处理、实时处理)