机器学习导论——大数据项目架构

以电信日志分析为例
一、项目名称:电信日志分析系统
二、项目描述:电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词过滤、违规违法用户的处理等,整个项目数据量在1T-20T左右,集群数量在10台到100台。
三、项目架构分析
数据采集层:ftp、socket方式
数据存储层:HDFS
数据分析层:MR\HIVE\IMPALA\SPARK
机器学习层:在大数据处理后的应用
数据展示层:oracle+SSM
在这里插入图片描述
在这里插入图片描述
四、项目职责
重点负责:实时or离线
处理分析了哪些字段,通过何种手段进行分析
项目有没有优化
五、项目优化
HDFS+Spark(一站式的分析平台)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值