大数据项目怎么写

数据的产生:(我们需要了解的)
1.网站的日志,游戏的日志,APP的日志。
2.电商订单。
3.保险,银行的数据。
4.网络报文。
5.运营商的项目,网络信息,通话记录,上网记录。
数据采集:
1.flume采集,flume可以监控一个目录,一个端口。
2.sqoop数据迁移工具,从RDBM迁移到Hadoop集群。
3.前期的测试时直接从甲方拿的硬盘,系统开发完成后,专门派人过去做实施。
4.ftp传输,慢。实时性强的需求做不了。

flume+kafka +storm/sparkstreaming
kafka+flume +sparkstreaming
比如说,日活10w,需要1w台服务器来支撑。
一般情况下,我们需要部署3W台服务器。

数据采集:Flume NG Logstash sqoop
数据存储:HDFS HBase Hive Kafka
数据分析:Hive MR Spark streaming SQL Storm
数据展示:Echarts Excel表格

网站点击流项目:

项目名称:可以写一些电商网站,旅游网站,APP的名称。名称尽量高大点!!不要带网站的名字。但是我们需要了解这家网站的主营业务,网站不能是淘宝,京东,亚马逊这些大网站,尽量找一些中小型的网站。
找一些不是很出名,但是网站看着还是很正规的电商平台。
ASS(B2B电商网站用户行为智能分析系统)
用户Session智能分析平台
项目所用技术:Flume/logstash,HDFS,MapReduce/Spark,Hive/SparkSQL/impala(交互式查询,速度快,基于内存),
Mysql,Sqoop,Zookeeper,SSH。
每一个框架的版本。
CDH还是HDP,不可能用Apache的。
CDH,版本5.3~5.12,选一个记住。5.8
HDP,版本2.4~2.8,选一个记住。2.6
项目周期:写好日期,2018.12018.8。时间是68个月。

项目分析:讨论项目的需求,以及架构的选择,不只是选择框架,还要选择版本,因为版本的更迭,导致功能的不断完善,我们的项目中可能会用到某些功能。
搭建集群:1~2周。7台机器,搭建完成,下午开会,需求改了, 集群版本不一样了,rm -rf /opt/*
项目开发:5

  • 4
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值