IBM linux on power 开发者技术大会记录

今日参见IBM举办的linux开发者大会,收获颇多。现在线简单记录于此。改日在详细总结。
1. 对于业务的处理来说:目前来说听到了如下的几个特点,主要分为如下的两类:
(1) 批处理类型的业务:如银行的报表查询,基于数据仓库的数据挖掘分析等等。在次还需要主要区分的一点是:对于上述的这些应用场景。还需要进一步分析用户的多少。如对于对公共用户开放的一些功能来言,就需要考虑高并发的处理。而一些公司内部的,则可以放宽对该方面的需求。(这里只是这样插一句,其实这对高并发来言,已经有了一些比较常用的手段了。如web前端的负载均衡器,DNS等等)。
针对这种场景,就是利用目前的hadoop/spark平台进行处理就行了。
(2)流处理的类型:如在一些工控领域的传感器收集到的数据,还有交通部门在识别套牌车辆,通过运营商的一些信令,来实时分析人群的聚集程度。针对这种场景,今天才学习了一种架构。叫做lambda架构,其说起来也比较简单。其架构图如下:

icon

针对上述的场景,如果是真正的实时流处理的话,一般场景的spark就能处理了。但是据IBM的人说,实际上目前的spark的流处理,是一个微量的批处理的过程,spark的时间窗口在500ms左右。做不到真正的流。而他们正在做他们的stream。
2 针对批处理的系统来言,由于批处理的实现特点,因此对数据一致性的考虑没有那么急迫。 而对于一些在线的系统来言(一边 读一边写),就需要考虑数据的最终一致性。
3 hadoop集群的大小:就听到的几个公司的数据来言,其hadoop集群的大小最大都是几百个左右。200-800。数据的量级都是在PB的量级。其中一个较大的公司说自己的每天的数据量有16TB.
4 总结一下目前公司们在做的hadoop的几个方面:
(1)针对hadoop的sql的优化。目前hive虽然使得hadoop支持了sql。但是支持的还不是很完善。目前就有两家公司提到了(其中包括IBM)他们正在做这方面的工作。 其背景如下:一些银行和电信行业都已经利用传统的数据库很多年了。他们熟悉sql。并且他们的很多业务利用了sql,并且也没人去维护了,想要让这些用户迁移到hadoop上,sql必不可少。
(2)面向算法的并行化,一方面,有一些公司已经在hadoop上去实现各种算法了,其中包括统计的算法,分类算法,聚类,回归,主成分分析等等。 另一方面,针对机器学习的库,目前在hadoop上面有mahout,spark的MLib等,IBM还会贡献自己的机器学习库systemML。
(3)各种场景的应用。银行部门:初级各类报表的查询,跨部门的数据的统计(这些以前的数据仓库基本都能做了),更深一个层次的,利用银行的客户信息,以及各种借贷信息,为用户贴标签,进行精确的营销,并且增加用户的忠诚度。
银行的风险预警:银行结合各个政府部门,如公安,确定一些风险账户,当有人跟该账户进行交易时,及时阻断。
电信行业的人群聚集分析,交通部门的套牌分析。
(4)stream的处理:目前还是比较混乱的,有用spark的。
5 IBM的大数据方案
IBM作为此次大会的主办,拿出了它大数据方面从硬件到软件的整套的方案。
硬件方面:linux on power,这个我实在是不太懂,并且上午还是用英文讲的,我只看到了一个关键词bare metal,并且他们生成,他们会做持续的优化,这是其他所不能比的。
大数据平台:hdfs+yarn+spark,用spark来代替mapreduce。并且他们成立了IBM open platform with apache hadoop,来建立标准,来统一目前hadoop版本乱的现状。
systemML 贡献自己的机器学习库
stream:自己的流处理方案
spss:专用的数据挖掘的工具软件,利用拖拽的方式。
DB2: 在hadoop平台上实现了DB2的驱动。
6 sequoiaDB 的方案:
他们的方案比较有意思,他们没有在hadoop的上层来实现数据库。而是着眼于了hdfs的,在他们的实现中,他们用他们的数据库替换掉了hdfs,在他们的数据库上面跑spark。例如查看到了某个数据快在那个节点上,就在那个节点上面去启动spark进程处理。
在他们的应用中,他们的系统(数据库)同时存在批处理,交互式查询,数据库读写的操作,他们利用多副本的方式,来解决同时访问的问题。
7 其他一些:
redis 貌似和IBM合作,做了一个硬件的接口,来加锁数据处理,没听懂。
SSD 内存,有人做了测评spark平台下ssd的性能时内存的80%-90%,
kafka这个消息队列,有三个公司提了他们正在用。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值