SparkML（二）设计机器学习系统

最新推荐文章于 2024-09-15 01:19:00 发布

一日两点水

最新推荐文章于 2024-09-15 01:19:00 发布

阅读量537

点赞数

分类专栏： spark机器学习文章标签：大数据机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a071800/article/details/77951863

版权

spark机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本章还是理论阶段，有一套完整清晰的理论对设计高层架构有着巨大作用。

大数据处理系统必备的特性

必须能与其他系统组件整合，数据收集系统、数据存储系统、前段web服务等等
必须易于扩展且与其它组建独立，理想情况下要兼具水平和垂直可扩展性
支持高校完成所需类型的计算，包含机器学习和迭代式分析应用
最好能同时支持批处理(离线处理)和实时处理

机器学习系统常应用在如下方面

个性化
目标营销和客户细分
预测建模与分析

机器学习模型分两类

监督学习
使用已标记的数据来学习，例如：推荐、回归、分类
无监督学习
使用无标记的数据来学习，例如：聚类、降维、特征提取

数据驱动的机器学习系统的组成

数据收集与存储
- 文件系统HDFS、S3
- SQL数据库MySQL Oracle DB
- 分布式NoSQL数据库HBase、Cassandra
- 搜索引擎Solr、Elasticsearch
- 流数据系统Kafka、Flume
数据清理与转换
- 数据过滤
- 数据缺失、不完整
- 处理可能的异常、错误值
- 合并多个数据源
- 数据汇总
模型训练与测试回路
模型训练、评估、交叉验证
模型部署与整合
模型周期性更新、实时更新
模型监控与反馈
避免用户陷入推荐循环，可以使用无偏见的数据来训练模型
选择处理方案(离线批处理、实时处理)

一日两点水

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。