开源大数据周刊-第37期

最新推荐文章于 2024-04-14 21:54:00 发布

aliyun32183

最新推荐文章于 2024-04-14 21:54:00 发布

阅读量197

点赞数

分类专栏：云栖社区开源大数据周刊

本文链接：https://blog.csdn.net/aliyun32183/article/details/79218992

版权

61 篇文章 1 订阅

订阅专栏

摘要： [阿里云E-MapReduce动态] E-MapReduce 2.3.1镜像主版本发布基础镜像CentOS 6.5内核版本升级到2.6.32-642；并支持job failover 资讯 2017年数据领域的八大发展趋势在2017年数据社区将会有大量的机会出现，并伴随一些危机性的挑战，

2017年数据领域的八大发展趋势
在2017年数据社区将会有大量的机会出现，并伴随一些危机性的挑战，下面是对上述问题的纵观。
大数据统一编程模型Apache Beam成为顶级开源项目
美国时间 1 月 10 日，Apache 软件基金会对外宣布，万众期待的Apache Beam在经历了近一年的孵化之后终于毕业。这一顶级Apache 开源项目终于成熟。
Spark 2.1.0发布，是时候升级spark了！
Spark 2.1.0是2.x分支中的第二个重要的发布版本（第一个是2.0.x），在该版本中，structured streaming有重大改进，增加了event mark watermark机制和对kafka 0.10.0的支持等特性，为其用于生产环境又迈进一步。除此之外，Spark其他重大改进集中在易用性、稳定性和改进等方面，解决了1200多个ticket（包括新功能、bug fix以及性能改进等）。

ElasticSearch与大数据的不解情缘
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。
HBase原理－数据读取流程解析
和写流程相比，HBase读数据是一个更加复杂的操作流程，这主要基于两个方面的原因：其一是因为整个HBase存储引擎基于LSM-Like树实现，因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件；其二是因为HBase中更新操作以及删除操作实现都很简单，更新操作并没有更新原有数据，而是使用时间戳属性实现了多版本

Flink运行时之基于Netty的网络通信
本文以及接下来的几篇文章将介绍Flink运行时TaskManager间进行数据交换的核心部分——基于Netty通信框架远程请求ResultSubpartition。作为系列文章的第一篇，先列出一些需要了解的基础对象。
基于Spark GraphX实现微博二度关系推荐
图计算是近几年大数据领域非常受关注的热点，社交网络中的好友关系推荐是一种典型图计算场景，本文是微博关系项目团队在二度关系计算中的一些实践，供高可用架构读者参考。