2017年已经过去218天，大数据杂谈80篇精选文章千万别又双叒叕错过啦-CSDN博客

2019独角兽企业重金招聘Python工程师标准>>>

小编友情提醒，2017 年进度条已经走完 59.8%，余额不足请充值。

距离上一次写下年度总结（ 2016 年大数据 80 篇爆款文章：这一年你追过的那些技术）仿佛才过去没多久，没想到一眨眼又到了新一年该做年中总结的时候了（此处响起“舌尖上的中国”背景音：又到了丰收的时节……）。2017 年已经进行到后半程，你曾经追过的那些大数据技术又有了哪些变化？去年年末对 2017 年大数据领域的预测如今又实现了多少？

在 2017 年已经过去的 218 天里，大数据杂谈一共发布了 160 篇文章，又攒下了不少优质内容。我们从中精选出了一部分，按照文章内容分主题进行了汇总，分为：机器学习、深度学习企业实践、TensorFlow、计算力、流处理、Apache 家族、用户画像和推荐系统、大数据系统和数据挖掘实践、数据库、大数据人的成长之路。

机器学习

今年机器学习已经成为炙手可热的技术话题。深度学习与人工智能技术正在改变人们的生活，同时也给企业管理海量数据提供了一些新的思路和尝试的方向。2017 年，越来越多的企业开始尝试将机器学习引入原有的大数据平台和框架中，也有更多企业加入了构建机器学习平台的大军中。

不过短短半年，大数据杂谈已经积累了很多关于机器学习的内容，从平台架构到框架算法再到实践案例，机器学习几乎无处不在。

企业机器学习平台构建方面，百度带来了自研的 PaddlePaddle 深度学习平台，它的出发点是性能第一、兼顾灵活易用；腾讯已经将 Angel 高性能计算平台在 GitHub 上开源，并推出了专门的深度学习平台 DI-X，借助 Angel 将可以提供更强的性能支持。

百度 PaddlePaddle 深度学习平台：面向工程师，性能优先

在 Angel 开源前的这半年，我们对架构和性能做了哪些重构和升级？

腾讯云推出深度学习平台，推动 AI 技术从炫技到落地应用

大数据杂谈 7 月份在社群中组织了一次“范式主题月”，由第四范式跟大家分享了更多关于与机器学习平台搭建相关的技术和经验，总结文章上周新鲜出炉。

你不得不看的六篇好文：企业搭建机器学习平台的要点

机器学习的实施除了需要稳定、性能强劲的平台架构，还涉及到数据收集和预处理、特征工程、算法等诸多环节。这里奉上一些不同环节的优秀实践案例。

数据开发常用的几种数据预处理和数据整理方法

如何解决特征工程，克服工业界应用 AI 的巨大难关

迁移学习实战：从算法到实践

迁移学习：数据不足时如何深度学习

开源跨平台推荐算法框架 LibRec：包含 70 余例推荐算法

从模型选择到超参调整，六步教你如何为机器学习项目选择算法

这一年来，数据科学家都用哪些算法？

阿里巴巴为什么要选择星际争霸作为 AI 算法研究环境？

机器学习技术与不同的公司业务相遇会碰出怎样的火花？下面是来自多家企业在各自业务领域应用机器学习技术的经验分享，依次是京东、数库科技、Quora 和 Google。

Spark 技术在京东智能供应链预测的应用

智能问答在金融领域中的实践与应用

2017 年，机器学习在 Quora 的五大应用场景

Google Play 如何利用机器学习来个性化推荐 App

深度学习企业实践

自 2012 年 ImageNet 大赛技惊四座后，深度学习已经成为近年来机器学习和人工智能领域中关注度最高的技术。

如今 ImageNet 已经步入第八年并结束了最后一届挑战赛。这几年深度学习在多个应用领域都取得了令人瞩目的进展，如语音识别、图像识别、自然语言处理等。鉴于深度学习的潜力，各大公司纷纷投入资源开展科研与运用。这里集合了一些公司对深度学习技术的实践案例，分别来自京东、欢聚时代、海航、Twitter 和美团点评。

京东 618：如何运用深度学习从多个维度优化数亿级别商品数据

游戏中的深度学习与人工智能

利用深度学习方法进行情感分析以及在海航舆情云平台的实践

推你想看的，Twitter 如何在信息流中大规模应用深度学习

深度学习在美团点评推荐平台排序中的运用

TensorFlow

随着机器学习、深度学习变得炙手可热，以 TensoFlow 为代表的一系列深度学习与神经网络框架也迅猛发展。

深度学习利器： TensorFlow 系统架构及高性能程序设计

专栏 | 深入浅出 Tensorflow：深度学习及 Google 深度学习框架

今年 3 月份 Google 召开了首届 TensorFlow 开发者峰会，并在会上发布了稳定版本的 TensorFlow V1.0

首届 TensorFlow 开发者大会：那些好玩的和黑科技

为了能更好地在 Spark 集群上运行 TensorFlow，Yahoo 开源了 TensorFlowOnSpark，不管是对 TensorFlow 还是对那些苦于不同类型数据维护的公司来说都无疑是一个好消息。

Spark 上的深度学习框架再添新兵：Yahoo 开源 TensorFlowOnSpark

下面这篇文章是 TensorFlow 模型部署的一个范例。

TensorFlow 在产品环境中运行模型的实践经验总结

当然 TensorFlow 也非一枝独秀。今年四月份 Facebook 宣布开源产业级深度学习框架 Caffe2，为开发者带来跨平台机器学习工具；而轻量级分布式深度学习框架 MXNet 也在年初成为 Apache 孵化器项目。下面这篇文章集中对主流深度学习框架的特点、性能进行了分析和比较。

TensorFlow 和 Caffe、CNTK、MXNet 等其他 7 种深度学习框架的对比

计算力

百度前首席科学家 Andrew Ng 提到，人工智能的春天已经到来，其重要因素之一是 GPU 处理能力的提升。

大数据、算法和计算能力决定了人工智能的发展。在计算领域上，主要依靠的硬件就是 GPU、CPU，以及今年刚推出的 TPU，背后是英伟达、英特尔和谷歌的角力。伴随着这些公司的股价一路上涨的趋势，也能看出并行计算的再次崛起。

专访高性能计算领军人物刘文志：并行计算的未来，是让人工智能无处不在

AlphaGo 乌镇对决是谷歌精心策划的推销？继 CPU 和 GPU 之后，TPU 又是个什么鬼？

深度学习需要较高的计算能力，所以对 GPU 的选择会极大地影响使用者体验。下面这两篇文章介绍了如何选择 GPU，为刚开始涉入 GPU 开发领域的朋友提供一些参考。

数据平台上的计算能力：哪些 GPU 更适合深度学习和数据库？

英伟达深度学习专家路川详解“如何升级 GPU 深度学习系统”

流处理

流式数据处理担任的角色日益重要，越来越多的企业采用流式数据来支撑自己分析、预测，从而能够更快速地做出决策。大数据杂谈持续关注流处理技术并收录了一些优秀的流处理文章，包括 Spark 流、Kafka 流、Apache Flink，还有备受关注的萌新 Apache Beam。

在数据流中使用 SQL 查询：Apache Flink 中的动态表的持续查询

Spark Streaming 中流式计算的困境与解决之道

kafka 数据可靠性深度解读

在大数据处理和计算平台百花齐放的今天，Beam 旨在屏蔽不同计算框架和开发 API 的差异性，为开发者提供一个真正与引擎和环境无关的数据处理框架。经过几个月的演化和改进，Beam 已经成长为 Apache 顶级项目并发布了第一个稳定版本。如今 Google Cloud、PayPal、Talend 等公司都在使用 Beam。

Apache Beam 发布第一个稳定版本，并且有这些公司正在使用它

Apache Beam 的前世今生：谷歌已经不再使用 MapReduce 了

Apache Beam 成功孵化为 Apache 顶级项目：将统一大数据平台的开发

下面是一些企业自研流处理架构的情况，分别来自同程、携程、Uber 和唯品会的分享。

同程旅游实时计算的演进

携程实时用户数据采集与分析系统

携程实时用户行为系统实践

开源“Chaperone”：Uber 是如何对 Kafka 进行端到端审计的

实时离线融合在唯品会的进展：在实时技术、数据、业务中寻找平衡

Apache 家族

作为大数据处理的基石，Apache 家族成员众多。除了前面提到 Spark、MXNet、Flink 和 Beam，还有大数据安全和性能开源解决方案 Apache Eagle、数据管理平台 Apache Geode、Hadoop 生态安全管理框架 Apache Ranger 和大名鼎鼎的神兽 Apache Kylin。

大数据管理平台 Apache Geode 分布式系统内部结构剖析

大数据安全和性能开源解决方案 Apache Eagle，毕业成为 Apache 顶级项目

下面是分别来自链家、美团和唯品会对 Apache Kylin 的一些应用案例。

Apache Kylin 在链家 GAIA 大数据平台中的实践

Apache Kylin 在美团点评的应用

美团 Apache Kylin 精确去重指标优化历程

Apache Kylin 在唯品会大数据的应用

用户画像和推荐系统

这依然是一个“得用户者得天下”的时代，因此精准的用户画像和个性化推荐系统仍是众多企业运营必不可少的工具。相比往年，今年的用户画像和个性化推荐系统或多或少能看到一些机器学习的身影。另外，我们将一些用户画像的优秀实践案例集中到了电子书中：《架构师特刊：用户画像实践》。

2017 年，你还在用用户画像和协同过滤做推荐系统吗？

关于用户画像产品构建和应用的几点经验

这七家大公司的实践，告诉你用户画像到底该怎么做 | 免费下载电子书