Google工程师是怎么处理大规模数据的？

最新推荐文章于 2024-01-12 17:11:06 发布

小迪和夫人

最新推荐文章于 2024-01-12 17:11:06 发布

阅读量231

点赞数

分类专栏：大数据文章标签：大数据大数据开发大数据实战大数据学习

本文链接：https://blog.csdn.net/jiawoxuexiqq30294961/article/details/89512171

版权

大数据专栏收录该内容

156 篇文章 4 订阅

订阅专栏

毫无疑问，Google是公认的大数据鼻祖。如今很多人提起大数据，还停留在 Google 开启的“三驾马车”时代：Google FS、MapReduce、BigTable。其实，“三驾马车”早已不是浪潮之巅。

近年来，大数据技术的发展，不论是技术迭代，还是生态圈的繁荣，都远超我们的想象。从 Spark 成为 Hadoop 生态的一部分，到 Flink 横空出世挑战 Spark 成为大数据处理领域的新星，再到如今 Google 又决心用 Apache Beam 一统天下。大数据技术的发展可谓跌宕起伏，波澜壮阔。

大数据技术生态圈

丰富的工具，繁荣的生态，也增加了开发者选择合适工具的难度。把开源框架，工具，类库，平台整合到一起，所需要的工作量以及复杂度，可想而知。技术的选择与使用，也是大数据开发者非常头疼的问题。

对大数据以及人工智能概念都是模糊不清的，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：458345782，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享！

之前和 Google Brain 的工程师交流的时候，他提到在大数据领域，能把技术想明白，用明白的开发者太少了，一些中小型公司的技术 VP ，往往也是在“赶技术的时髦”的状态中，更别说普通的开发者。对大数据处理，比较常见的误区有下面几种：

1.低估了数据处理的重要性。

没有高质量的数据处理，人工智能只有人工没有智能。例如在语义理解上，Google 就曾犯过这样的错误，直到被一家德国的小公司超过，才认识到高质量的数据标注和处理的重要性。

2.低估了数据处理工程师在组织架构上的重要性。

大数据领域泰斗级人物Jesse Anderson曾做过一项研究，一个人工智能团队的合理组织架构，需要4/5的数据处理工程师。其实，即使是一个写前端的工程师，很多工作还是数据处理。很不幸，很多团队没有认识到这一点。

3.低估了数据处理规模变大带来的复杂度。

很多人还没有遇到过“大规模”的问题，因此容易把问题想的过于简单。Google有很多优秀的候选人，他们对常见的编程问题可以很好的解决，但只要追问数据规模变大时怎么设计系统，回答却常常不尽人意。

4.高估了上手数据处理的难度。

一方面我们需要认识到大规模的数据处理是有复杂的因素的。但另一方面，有了正确的工具和技术理念，现在上手数据处理并不困难。在Google，很多应届生入职半年后也能轻松应对上亿的数据量。