开源大数据周刊-第27期

最新推荐文章于 2024-06-05 21:47:09 发布

aliyun32183

最新推荐文章于 2024-06-05 21:47:09 发布

阅读量178

点赞数

分类专栏：云栖社区开源大数据周刊

本文链接：https://blog.csdn.net/aliyun32183/article/details/79241768

版权

云栖社区开源大数据周刊专栏收录该内容

61 篇文章 1 订阅

订阅专栏

摘要：大数据技术和产业发展趋势，机器学习神经网络的内部结构，奇虎360的日志收集实践，Spark在医疗行业的应用一例。

阿里云E-Mapreduce动态

E-Mapreduce产品即将发布的版本信息如下：

1.6.0版本

交互式查询（支持Hive、Spark）

资讯

大数据有多火：盘点54家，A轮占比27.8%，增速41.1% ，北京占比57.4%
本文重点汇总了54家从事大数据的初创企业，从地理分布、融资情况、企业定位、市场趋势、以及业务类型角度对大数据的热火程度进行描绘。
2016年大数据技术发展趋势概述
对大规模数据集进行分析能够帮助我们掌握隐藏模式、客户偏好、未知关联性、市场趋势以及其它极具价值的业务信息。在此基础之上，企业能够实现成本削减、促进决策制定并提供更多有针对性的产品与服务。在这篇文章中共享了解2016年内出现的几项大数据技术发展趋势。包括Apache Spark、基于Hadoop的多核心服务器、数据湖泊等等。
DaaS调研与简要分析：市场现状、商业模式及展望
文章介绍了DaaS的基本定义和当前市面上的典型产品（Amazon EMR、Altiscale、Qubole等），并分析了DaaS可能存在的商业模式：DaaS提供上承担合约和数据保护的成本，行业巨头需要释放数据价值获取更多的数据。
（技术）一文读懂 CNN、DNN、RNN 内部网络结构区别
这一篇知乎的答案介绍了神经网络技术的起源和演进，三类典型的神经网络的内部结构和使用场景。推荐神经网络的初学者入门。
（技术）流处理和Lamda架构中的挑战
这篇InfoQ翻译的文章介绍了LinkedIn公司在使用Apache Samza（一个流式计算框架，依赖于Kafka做消息传输，使用Hadoop Yarn做隔离、容错和资源管理等）做数据处理中避免Lambda架构的原因和具体的做法。
（技术）基于Scribe的奇虎360日志收集系统架构
文章对Scribe日志系统做了简单介绍，并将Flume和Scribe框架进行了对比。在奇虎360日志收集系统架构里有日志服务器、中心服务器、存储服务器三层，文中介绍了日志的基本流动路线，以及日志系统的可用性、可靠性和可扩展性保证。
（技术）Predicting Breast Cancer Using Apache Spark Machine Learning Logistic Regression（英文）
这篇博客文章介绍了用Spark机器学习库的逻辑回归算来预测乳腺癌的发病情况。MLlib是在Spark DataFrame基础上构建的一系列API和算法库，使用MLlib能极大的提升用户构建机器学习算法的性能和效率。逻辑回归是MLlib里比较典型的分类算法，提供二分模型预测功能。