开源大数据周刊-第27期

摘要: 大数据技术和产业发展趋势,机器学习神经网络的内部结构,奇虎360的日志收集实践,Spark在医疗行业的应用一例。

阿里云E-Mapreduce动态

E-Mapreduce产品即将发布的版本信息如下:

1.6.0版本

  • 交互式查询(支持Hive、Spark)

资讯

  • 大数据有多火:盘点54家,A轮占比27.8%,增速41.1% ,北京占比57.4%
    本文重点汇总了54家从事大数据的初创企业,从地理分布、融资情况、企业定位、市场趋势、以及业务类型角度对大数据的热火程度进行描绘。
  • 2016年大数据技术发展趋势概述
    对大规模数据集进行分析能够帮助我们掌握隐藏模式、客户偏好、未知关联性、市场趋势以及其它极具价值的业务信息。在此基础之上,企业能够实现成本削减、促进决策制定并提供更多有针对性的产品与服务。在这篇文章中共享了解2016年内出现的几项大数据技术发展趋势。包括Apache Spark、基于Hadoop的多核心服务器、数据湖泊等等。
  • DaaS调研与简要分析:市场现状、商业模式及展望
    文章介绍了DaaS的基本定义和当前市面上的典型产品(Amazon EMR、Altiscale、Qubole等),并分析了DaaS可能存在的商业模式:DaaS提供上承担合约和数据保护的成本,行业巨头需要释放数据价值获取更多的数据。
  • (技术)一文读懂 CNN、DNN、RNN 内部网络结构区别
    这一篇知乎的答案介绍了神经网络技术的起源和演进,三类典型的神经网络的内部结构和使用场景。推荐神经网络的初学者入门。
  • (技术)流处理和Lamda架构中的挑战
    这篇InfoQ翻译的文章介绍了LinkedIn公司在使用Apache Samza(一个流式计算框架,依赖于Kafka做消息传输,使用Hadoop Yarn做隔离、容错和资源管理等)做数据处理中避免Lambda架构的原因和具体的做法。
  • (技术)基于Scribe的奇虎360日志收集系统架构
    文章对Scribe日志系统做了简单介绍,并将Flume和Scribe框架进行了对比。在奇虎360日志收集系统架构里有日志服务器、中心服务器、存储服务器三层,文中介绍了日志的基本流动路线,以及日志系统的可用性、可靠性和可扩展性保证。
  • (技术)Predicting Breast Cancer Using Apache Spark Machine Learning Logistic Regression(英文)
    这篇博客文章介绍了用Spark机器学习库的逻辑回归算来预测乳腺癌的发病情况。MLlib是在Spark DataFrame基础上构建的一系列API和算法库,使用MLlib能极大的提升用户构建机器学习算法的性能和效率。逻辑回归是MLlib里比较典型的分类算法,提供二分模型预测功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值