2017年已经过去218天,大数据杂谈80篇精选文章千万别又双叒叕错过啦

小编友情提醒,2017 年进度条已经走完 59.8%,余额不足请充值。

距离上一次写下年度总结( 2016 年大数据 80 篇爆款文章:这一年你追过的那些技术)仿佛才过去没多久,没想到一眨眼又到了新一年该做年中总结的时候了(此处响起“舌尖上的中国”背景音:又到了丰收的时节……)。2017 年已经进行到后半程,你曾经追过的那些大数据技术又有了哪些变化?去年年末对 2017 年大数据领域的预测如今又实现了多少?

在 2017 年已经过去的 218 天里,大数据杂谈一共发布了 160 篇文章,又攒下了不少优质内容。我们从中精选出了一部分,按照文章内容分主题进行了汇总,分为:机器学习、深度学习企业实践、TensorFlow、计算力、流处理、Apache 家族、用户画像和推荐系统、大数据系统和数据挖掘实践、数据库、大数据人的成长之路。

机器学习  

今年机器学习已经成为炙手可热的技术话题。深度学习与人工智能技术正在改变人们的生活,同时也给企业管理海量数据提供了一些新的思路和尝试的方向。2017 年,越来越多的企业开始尝试将机器学习引入原有的大数据平台和框架中,也有更多企业加入了构建机器学习平台的大军中。

不过短短半年,大数据杂谈已经积累了很多关于机器学习的内容,从平台架构到框架算法再到实践案例,机器学习几乎无处不在。

企业机器学习平台构建方面,百度带来了自研的 PaddlePaddle 深度学习平台,它的出发点是性能第一、兼顾灵活易用;腾讯已经将 Angel 高性能计算平台在 GitHub 上开源,并推出了专门的深度学习平台 DI-X,借助 Angel 将可以提供更强的性能支持。

百度 PaddlePaddle 深度学习平台:面向工程师,性能优先

在 Angel 开源前的这半年,我们对架构和性能做了哪些重构和升级?

腾讯云推出深度学习平台,推动 AI 技术从炫技到落地应用

大数据杂谈 7 月份在社群中组织了一次“范式主题月”,由第四范式跟大家分享了更多关于与机器学习平台搭建相关的技术和经验,总结文章上周新鲜出炉。

你不得不看的六篇好文:企业搭建机器学习平台的要点

机器学习的实施除了需要稳定、性能强劲的平台架构,还涉及到数据收集和预处理、特征工程、算法等诸多环节。这里奉上一些不同环节的优秀实践案例。

数据开发常用的几种数据预处理和数据整理方法

如何解决特征工程,克服工业界应用 AI 的巨大难关

迁移学习实战:从算法到实践

迁移学习:数据不足时如何深度学习

开源跨平台推荐算法框架 LibRec:包含 70 余例推荐算法

从模型选择到超参调整,六步教你如何为机器学习项目选择算法

这一年来,数据科学家都用哪些算法?

阿里巴巴为什么要选择星际争霸作为 AI 算法研究环境?

机器学习技术与不同的公司业务相遇会碰出怎样的火花?下面是来自多家企业在各自业务领域应用机器学习技术的经验分享,依次是京东、数库科技、Quora 和 Google。

Spark 技术在京东智能供应链预测的应用

智能问答在金融领域中的实践与应用

2017 年,机器学习在 Quora 的五大应用场景

Google Play 如何利用机器学习来个性化推荐 App

深度学习企业实践  

自 2012 年 ImageNet 大赛技惊四座后,深度学习已经成为近年来机器学习和人工智能领域中关注度最高的技术。

如今 ImageNet 已经步入第八年并结束了最后一届挑战赛。这几年深度学习在多个应用领域都取得了令人瞩目的进展,如语音识别、图像识别、自然语言处理等。鉴于深度学习的潜力,各大公司纷纷投入资源开展科研与运用。这里集合了一些公司对深度学习技术的实践案例,分别来自京东、欢聚时代、海航、Twitter 和美团点评。

京东 618:如何运用深度学习从多个维度优化数亿级别商品数据

游戏中的深度学习与人工智能

利用深度学习方法进行情感分析以及在海航舆情云平台的实践

推你想看的,Twitter 如何在信息流中大规模应用深度学习

深度学习在美团点评推荐平台排序中的运用

TensorFlow  

随着机器学习、深度学习变得炙手可热,以 TensoFlow 为代表的一系列深度学习与神经网络框架也迅猛发展。

深度学习利器: TensorFlow 系统架构及高性能程序设计

专栏 | 深入浅出 Tensorflow:深度学习及 Google 深度学习框架

今年 3 月份 Google 召开了首届 TensorFlow 开发者峰会,并在会上发布了稳定版本的 TensorFlow V1.0

首届 TensorFlow 开发者大会:那些好玩的和黑科技

为了能更好地在 Spark 集群上运行 TensorFlow,Yahoo 开源了 TensorFlowOnSpark,不管是对 TensorFlow 还是对那些苦于不同类型数据维护的公司来说都无疑是一个好消息。

Spark 上的深度学习框架再添新兵:Yahoo 开源 TensorFlowOnSpark

下面这篇文章是 TensorFlow 模型部署的一个范例。

TensorFlow 在产品环境中运行模型的实践经验总结

当然 TensorFlow 也非一枝独秀。今年四月份 Facebook 宣布开源产业级深度学习框架 Caffe2,为开发者带来跨平台机器学习工具;而轻量级分布式深度学习框架 MXNet 也在年初成为 Apache 孵化器项目。下面这篇文章集中对主流深度学习框架的特点、性能进行了分析和比较。

TensorFlow 和 Caffe、CNTK、MXNet 等其他 7 种深度学习框架的对比

计算力  

百度前首席科学家 Andrew Ng 提到,人工智能的春天已经到来,其重要因素之一是 GPU 处理能力的提升。

大数据、算法和计算能力决定了人工智能的发展。在计算领域上,主要依靠的硬件就是 GPU、CPU,以及今年刚推出的 TPU,背后是英伟达、英特尔和谷歌的角力。伴随着这些公司的股价一路上涨的趋势,也能看出并行计算的再次崛起。

专访高性能计算领军人物刘文志:并行计算的未来,是让人工智能无处不在

AlphaGo 乌镇对决是谷歌精心策划的推销?继 CPU 和 GPU 之后,TPU 又是个什么鬼?

深度学习需要较高的计算能力,所以对 GPU 的选择会极大地影响使用者体验。下面这两篇文章介绍了如何选择 GPU,为刚开始涉入 GPU 开发领域的朋友提供一些参考。

数据平台上的计算能力:哪些 GPU 更适合深度学习和数据库?

英伟达深度学习专家路川详解“如何升级 GPU 深度学习系统”

流处理  

流式数据处理担任的角色日益重要,越来越多的企业采用流式数据来支撑自己分析、预测,从而能够更快速地做出决策。大数据杂谈持续关注流处理技术并收录了一些优秀的流处理文章,包括 Spark 流、Kafka 流、Apache Flink,还有备受关注的萌新 Apache Beam。

在数据流中使用 SQL 查询:Apache Flink 中的动态表的持续查询

Spark Streaming 中流式计算的困境与解决之道

kafka 数据可靠性深度解读

在大数据处理和计算平台百花齐放的今天,Beam 旨在屏蔽不同计算框架和开发 API 的差异性,为开发者提供一个真正与引擎和环境无关的数据处理框架。经过几个月的演化和改进,Beam 已经成长为 Apache 顶级项目并发布了第一个稳定版本。如今 Google Cloud、PayPal、Talend 等公司都在使用 Beam。

Apache Beam 发布第一个稳定版本,并且有这些公司正在使用它

Apache Beam 的前世今生:谷歌已经不再使用 MapReduce 了

Apache Beam 成功孵化为 Apache 顶级项目:将统一大数据平台的开发

下面是一些企业自研流处理架构的情况,分别来自同程、携程、Uber 和唯品会的分享。

同程旅游实时计算的演进

携程实时用户数据采集与分析系统

携程实时用户行为系统实践

开源“Chaperone”:Uber 是如何对 Kafka 进行端到端审计的

实时离线融合在唯品会的进展:在实时技术、数据、业务中寻找平衡

Apache 家族  

作为大数据处理的基石,Apache 家族成员众多。除了前面提到 Spark、MXNet、Flink 和 Beam,还有大数据安全和性能开源解决方案 Apache Eagle、数据管理平台 Apache Geode、Hadoop 生态安全管理框架 Apache Ranger 和大名鼎鼎的神兽 Apache Kylin。

大数据管理平台 Apache Geode 分布式系统内部结构剖析

大数据安全和性能开源解决方案 Apache Eagle,毕业成为 Apache 顶级项目

下面是分别来自链家、美团和唯品会对 Apache Kylin 的一些应用案例。

Apache Kylin 在链家 GAIA 大数据平台中的实践

Apache Kylin 在美团点评的应用

美团 Apache Kylin 精确去重指标优化历程

Apache Kylin 在唯品会大数据的应用

用户画像和推荐系统  

这依然是一个“得用户者得天下”的时代,因此精准的用户画像和个性化推荐系统仍是众多企业运营必不可少的工具。相比往年,今年的用户画像和个性化推荐系统或多或少能看到一些机器学习的身影。另外,我们将一些用户画像的优秀实践案例集中到了电子书中:《架构师特刊:用户画像实践》。

2017 年,你还在用用户画像和协同过滤做推荐系统吗?

关于用户画像产品构建和应用的几点经验

这七家大公司的实践,告诉你用户画像到底该怎么做 | 免费下载电子书

通过京东 618 谈电商平台的推荐系统:渗透每个环节,肩负建设平台生态

一个以推荐系统为主业务的公司会涉及到哪些方面的技术?

源于生活,谈谈时间衰变在推荐场景中的应用

大数据平台和数据挖掘实践  

数据平台部分也积攒了不少内容:普元软件、明略数据、达观数据、eBay、58、阿里、美团,最后是携程带来的爬虫与反爬虫套路。

建设大数据平台,从“治理”数据谈起

从存储、实时、安全的角度谈如何建立完整可用的企业大数据平台

从分布式管理到多租户实现,企业级大数据系统如何利用开源生态构建?

每天上百万次调用的巨量访问系统缓存数据丢失?看 eBay 的三种处理方案

兼顾稳定和性能,58 大数据平台的技术演进与实践

阿里 Goldeneye 业务监控平台之架构演进,如何实时处理 100T+/ 天的日志量?

HDFS Federation 在美团点评的应用与改进

别让你的老板进监狱也别让你的用户受伤害,谈爬虫反爬虫套路

数据库  

大数据离不开数据存储,而时间序列数据渐渐在我们的世界中发挥更大的作用。软件开发人员的使用模式早已反映了这一点,在过去的 24 个月中,时间序列数据库(TSDB)已经成为增长最快的类别(数据来自 DB-Engines.com)。

我们为什么需要一个时序数据库?

应对数十亿的时序数据,这个开源项目的思路是否值得你借鉴?

百度无人车和天工物联网都使用了时序数据库,但是你有多了解时序数据库?

时序数据库如何支持秒级上亿数据的查询分组和聚合运算

以无损和有损压缩的两个例子,来看时序数据库的最佳压缩方案

技术解读:Facebook 开源内存数据库 Beringei,如何做到极致的压缩率

业界追求更优的大数据存储数据库和数据库搜索引擎的脚步从未停止。

主流开源 SQL 引擎总结,不断改进的 Hive 始终遥遥领先

比起传统单机数据库,怎样看待分布式数据库优势与前景?

一篇文章掌握 Sql-On-Hadoop 核心技术

有赞大数据实践: 敏捷型数据仓库的构建及其应用

由舜飞科技开发的 IndexR 是一个开源的大数据存储格式(下载地址 https://github.com/shunfei/indexr),旨在通过添加索引、优化编码方式、提高 IO 效率等方式提升计算曾和存储层的数据交换效率,从而提升整体性能,已于 2017 年 1 月初正式开源。

开源 IndexR: 如何对上千亿的数据进行秒级探索式分析

机器学习也被引入用于数据库调优。

亚马逊推出机器学习工具给数据库调优,DBA 要失业了?

大数据人的成长之路  

第一篇文章为大家提供了一个有关大数据领域详细的“国情咨文”,以及投资机构针对这一行业的见解和关键趋势。

火力全开:大数据领域 2017 年全景剖析

AI 时代来临,个人和企业该如何武装自己?

大数据领域里的企业和个人该如何全力靠拢人工智能?

大数据的发展,伴随的将是软件工程师的渐退,算法工程师的崛起

《图解 Spark:核心技术与案例实战》作者经验谈

老司机用十几年的职业阅历告诉你:如何成为一名优质的数据科学家

在新的一年里,选个关注热度上升的大数据工具学习下吧

感谢大家一直以来的支持和陪伴!希望接下来的时间里我们能给大家带来更多好内容,欢迎大家投稿和分享技术!另外,大数据杂谈一直在做微信群技术分享,在这里也感谢每位分享讲师带来的干货,欢迎大家加入社群!

转载于:https://my.oschina.net/qiangzigege/blog/1504286

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值