小编友情提醒,2017 年进度条已经走完 59.8%,余额不足请充值。
距离上一次写下年度总结( 2016 年大数据 80 篇爆款文章:这一年你追过的那些技术)仿佛才过去没多久,没想到一眨眼又到了新一年该做年中总结的时候了(此处响起“舌尖上的中国”背景音:又到了丰收的时节……)。2017 年已经进行到后半程,你曾经追过的那些大数据技术又有了哪些变化?去年年末对 2017 年大数据领域的预测如今又实现了多少?
在 2017 年已经过去的 218 天里,大数据杂谈一共发布了 160 篇文章,又攒下了不少优质内容。我们从中精选出了一部分,按照文章内容分主题进行了汇总,分为:机器学习、深度学习企业实践、TensorFlow、计算力、流处理、Apache 家族、用户画像和推荐系统、大数据系统和数据挖掘实践、数据库、大数据人的成长之路。
机器学习
今年机器学习已经成为炙手可热的技术话题。深度学习与人工智能技术正在改变人们的生活,同时也给企业管理海量数据提供了一些新的思路和尝试的方向。2017 年,越来越多的企业开始尝试将机器学习引入原有的大数据平台和框架中,也有更多企业加入了构建机器学习平台的大军中。
不过短短半年,大数据杂谈已经积累了很多关于机器学习的内容,从平台架构到框架算法再到实践案例,机器学习几乎无处不在。
企业机器学习平台构建方面,百度带来了自研的 PaddlePaddle 深度学习平台,它的出发点是性能第一、兼顾灵活易用;腾讯已经将 Angel 高性能计算平台在 GitHub 上开源,并推出了专门的深度学习平台 DI-X,借助 Angel 将可以提供更强的性能支持。
百度 PaddlePaddle 深度学习平台:面向工程师,性能优先
在 Angel 开源前的这半年,我们对架构和性能做了哪些重构和升级?
大数据杂谈 7 月份在社群中组织了一次“范式主题月”,由第四范式跟大家分享了更多关于与机器学习平台搭建相关的技术和经验,总结文章上周新鲜出炉。
机器学习的实施除了需要稳定、性能强劲的平台架构,还涉及到数据收集和预处理、特征工程、算法等诸多环节。这里奉上一些不同环节的优秀实践案例。
开源跨平台推荐算法框架 LibRec:包含 70 余例推荐算法
机器学习技术与不同的公司业务相遇会碰出怎样的火花?下面是来自多家企业在各自业务领域应用机器学习技术的经验分享,依次是京东、数库科技、Quora 和 Google。
Google Play 如何利用机器学习来个性化推荐 App
深度学习企业实践
自 2012 年 ImageNet 大赛技惊四座后,深度学习已经成为近年来机器学习和人工智能领域中关注度最高的技术。
如今 ImageNet 已经步入第八年并结束了最后一届挑战赛。这几年深度学习在多个应用领域都取得了令人瞩目的进展,如语音识别、图像识别、自然语言处理等。鉴于深度学习的潜力,各大公司纷纷投入资源开展科研与运用。这里集合了一些公司对深度学习技术的实践案例,分别来自京东、欢聚时代、海航、Twitter 和美团点评。
京东 618:如何运用深度学习从多个维度优化数亿级别商品数据
推你想看的,Twitter 如何在信息流中大规模应用深度学习
TensorFlow
随着机器学习、深度学习变得炙手可热,以 TensoFlow 为代表的一系列深度学习与神经网络框架也迅猛发展。
深度学习利器: TensorFlow 系统架构及高性能程序设计
专栏 | 深入浅出 Tensorflow:深度学习及 Google 深度学习框架
今年 3 月份 Google 召开了首届 TensorFlow 开发者峰会,并在会上发布了稳定版本的 TensorFlow V1.0
为了能更好地在 Spark 集群上运行 TensorFlow,Yahoo 开源了 TensorFlowOnSpark,不管是对 TensorFlow 还是对那些苦于不同类型数据维护的公司来说都无疑是一个好消息。
Spark 上的深度学习框架再添新兵:Yahoo 开源 TensorFlowOnSpark
下面这篇文章是 TensorFlow 模型部署的一个范例。
当然 TensorFlow 也非一枝独秀。今年四月份 Facebook 宣布开源产业级深度学习框架 Caffe2,为开发者带来跨平台机器学习工具;而轻量级分布式深度学习框架 MXNet 也在年初成为 Apache 孵化器项目。下面这篇文章集中对主流深度学习框架的特点、性能进行了分析和比较。
TensorFlow 和 Caffe、CNTK、MXNet 等其他 7 种深度学习框架的对比
计算力
百度前首席科学家 Andrew Ng 提到,人工智能的春天已经到来,其重要因素之一是 GPU 处理能力的提升。
大数据、算法和计算能力决定了人工智能的发展。在计算领域上,主要依靠的硬件就是 GPU、CPU,以及今年刚推出的 TPU,背后是英伟达、英特尔和谷歌的角力。伴随着这些公司的股价一路上涨的趋势,也能看出并行计算的再次崛起。
专访高性能计算领军人物刘文志:并行计算的未来,是让人工智能无处不在
AlphaGo 乌镇对决是谷歌精心策划的推销?继 CPU 和 GPU 之后,TPU 又是个什么鬼?
深度学习需要较高的计算能力,所以对 GPU 的选择会极大地影响使用者体验。下面这两篇文章介绍了如何选择 GPU,为刚开始涉入 GPU 开发领域的朋友提供一些参考。
数据平台上的计算能力:哪些 GPU 更适合深度学习和数据库?
英伟达深度学习专家路川详解“如何升级 GPU 深度学习系统”
流处理
流式数据处理担任的角色日益重要,越来越多的企业采用流式数据来支撑自己分析、预测,从而能够更快速地做出决策。大数据杂谈持续关注流处理技术并收录了一些优秀的流处理文章,包括 Spark 流、Kafka 流、Apache Flink,还有备受关注的萌新 Apache Beam。
在数据流中使用 SQL 查询:Apache Flink 中的动态表的持续查询
在大数据处理和计算平台百花齐放的今天,Beam 旨在屏蔽不同计算框架和开发 API 的差异性,为开发者提供一个真正与引擎和环境无关的数据处理框架。经过几个月的演化和改进,Beam 已经成长为 Apache 顶级项目并发布了第一个稳定版本。如今 Google Cloud、PayPal、Talend 等公司都在使用 Beam。
Apache Beam 发布第一个稳定版本,并且有这些公司正在使用它
Apache Beam 的前世今生:谷歌已经不再使用 MapReduce 了
Apache Beam 成功孵化为 Apache 顶级项目:将统一大数据平台的开发
下面是一些企业自研流处理架构的情况,分别来自同程、携程、Uber 和唯品会的分享。
开源“Chaperone”:Uber 是如何对 Kafka 进行端到端审计的
实时离线融合在唯品会的进展:在实时技术、数据、业务中寻找平衡
Apache 家族
作为大数据处理的基石,Apache 家族成员众多。除了前面提到 Spark、MXNet、Flink 和 Beam,还有大数据安全和性能开源解决方案 Apache Eagle、数据管理平台 Apache Geode、Hadoop 生态安全管理框架 Apache Ranger 和大名鼎鼎的神兽 Apache Kylin。
大数据管理平台 Apache Geode 分布式系统内部结构剖析
大数据安全和性能开源解决方案 Apache Eagle,毕业成为 Apache 顶级项目
下面是分别来自链家、美团和唯品会对 Apache Kylin 的一些应用案例。
Apache Kylin 在链家 GAIA 大数据平台中的实践
用户画像和推荐系统
这依然是一个“得用户者得天下”的时代,因此精准的用户画像和个性化推荐系统仍是众多企业运营必不可少的工具。相比往年,今年的用户画像和个性化推荐系统或多或少能看到一些机器学习的身影。另外,我们将一些用户画像的优秀实践案例集中到了电子书中:《架构师特刊:用户画像实践》。
这七家大公司的实践,告诉你用户画像到底该怎么做 | 免费下载电子书
通过京东 618 谈电商平台的推荐系统:渗透每个环节,肩负建设平台生态
大数据平台和数据挖掘实践
数据平台部分也积攒了不少内容:普元软件、明略数据、达观数据、eBay、58、阿里、美团,最后是携程带来的爬虫与反爬虫套路。
从分布式管理到多租户实现,企业级大数据系统如何利用开源生态构建?
每天上百万次调用的巨量访问系统缓存数据丢失?看 eBay 的三种处理方案
阿里 Goldeneye 业务监控平台之架构演进,如何实时处理 100T+/ 天的日志量?
数据库
大数据离不开数据存储,而时间序列数据渐渐在我们的世界中发挥更大的作用。软件开发人员的使用模式早已反映了这一点,在过去的 24 个月中,时间序列数据库(TSDB)已经成为增长最快的类别(数据来自 DB-Engines.com)。
百度无人车和天工物联网都使用了时序数据库,但是你有多了解时序数据库?
技术解读:Facebook 开源内存数据库 Beringei,如何做到极致的压缩率
业界追求更优的大数据存储数据库和数据库搜索引擎的脚步从未停止。
主流开源 SQL 引擎总结,不断改进的 Hive 始终遥遥领先
由舜飞科技开发的 IndexR 是一个开源的大数据存储格式(下载地址 https://github.com/shunfei/indexr),旨在通过添加索引、优化编码方式、提高 IO 效率等方式提升计算曾和存储层的数据交换效率,从而提升整体性能,已于 2017 年 1 月初正式开源。
机器学习也被引入用于数据库调优。
大数据人的成长之路
第一篇文章为大家提供了一个有关大数据领域详细的“国情咨文”,以及投资机构针对这一行业的见解和关键趋势。
AI 时代来临,个人和企业该如何武装自己?
老司机用十几年的职业阅历告诉你:如何成为一名优质的数据科学家
感谢大家一直以来的支持和陪伴!希望接下来的时间里我们能给大家带来更多好内容,欢迎大家投稿和分享技术!另外,大数据杂谈一直在做微信群技术分享,在这里也感谢每位分享讲师带来的干货,欢迎大家加入社群!