- 博客(27)
- 收藏
- 关注
转载 为了让你更全面的了解Apache Flink,我们做了这本专刊
Qubole最近的一份市场调查报告显示,ApacheFlink 是2018年开源大数据生态中发展“最快”的引擎。和2017年相比增长了125% 。为了让大家更为全面的了解...
2018-11-30 08:33:05 504
原创 干货 | Spark 2.4 高阶函数介绍
Apache Spark 2.4 在近期已经发布了(参见Apache Spark 2.4 正式发布,重要功能详细介绍),其中为我们带来了24个内置操作数组和 map 的函...
2018-11-29 08:08:39 928
转载 AI应届博士生年薪80W登上微博热搜
AI人才年薪80万登上微博热搜图片来源于微博热搜截图据报道,今年的AI应届博士生年薪已经涨至80万,与去年的50万相比,整整涨了60%,并且随着人才缺口的扩大,涨薪的趋势...
2018-11-28 09:13:16 493
转载 通过BulkLoad快速将海量数据导入到Hbase
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在...
2018-11-27 08:52:46 448
转载 深入理解Flink核心技术
Flink项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多的人关注Flink项目。本文将深入分析Flink一些关键的技术与特性,...
2018-11-26 18:00:00 1714
转载 数据结构与算法?看这篇就够了!
程序 = 数据结构 + 算法 ——图灵奖得主,计算机科学家N.Wirth(沃斯)作为程序员,我们做机器学习也好,做python开发也好,java开...
2018-11-23 08:37:43 928
转载 HBase在人工智能场景的使用
近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数...
2018-11-22 08:03:39 238
原创 Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍
Apache Spark 2.4 是在11月08日正式发布的,其带来了很多新的特性具体可以参见Apache Spark 2.4 正式发布,重要功能详细介绍,本文主要介绍这...
2018-11-22 08:03:39 511
转载 大数据开发者应该知道的分布式系统 CAP 理论
无论你是一个系统架构师,还是一个普通开发,当你开发或者设计一个分布式系统的时候,CAP理论是无论如何也绕不过去的。本文就来介绍一下到底什么是CAP理论,如何证明CAP理论...
2018-11-21 08:26:00 251
转载 【真不用等了,这次动静太大你瞧好了】大军即将进入...
随着大数据时代的到来,【这次国家教育部的改革要动真格了】,JAVA程序员们仅有的一点点竞争力很快就不复存在,为什么这么说呢?人生别只顾低头拉车,更要抬头看路!国家教育部全...
2018-11-20 08:46:00 285
转载 HBase高可用原理与实践
本文来自网易云社区,作者蒋鸿翔。 原文链接:https://www.cnblogs.com/163yun/p/9469301.html前言 前段时间有套线上HBase出了...
2018-11-19 20:22:01 211
原创 HBase 多租户隔离技术:RegionServer Group 介绍及实战
下面文字如代码错乱,可以点击下面的 阅读原文 即可进入原文阅读。https://www.iteblog.com/archives/2435.html背景随着 Apache...
2018-11-18 19:29:44 503
转载 干货 | Streaming SQL 的基础
本文来自于 QCon London 2018,分享者来自 Google 的软件开发工程师 Tyler Akidau,其是 Streaming 101 和 Streamin...
2018-11-17 19:28:54 196
原创 OpenTSDB 底层 HBase 的 Rowkey 是如何设计的
在https://www.iteblog.com/archives/2450.html文章中有实际的案例分析 Rowkey 如何设计的,感兴趣的可以点击下面阅读原文去查看...
2018-11-16 08:18:53 1050
转载 对话AI一线大咖,零基础入门Python机器学习与深度学习
如果村里通了网,那你一定知道【AI】人工智能。如果你会网上冲浪,那你一定看到过【ML】机器学习。小编在网上看到一个段子:ML派坐落美利坚合众山中,百年来武学奇才辈出,隐然...
2018-11-15 07:58:54 328
原创 SparkRDMA:使用RDMA技术提升Spark的Shuffle性能
如下面的图片看不清,请参见 https://www.iteblog.com/archives/1964.html,或点击下面阅读原文即可。Spark Shuffle 基础...
2018-11-14 08:40:20 270
原创 MapReduce作业大规模迁移Apache Spark在百度的实践
本文来自于2018年11月3日在上海举办的上海Spark+AI第十五次聚会。分享者叶先进,百度智能云技术二部, 高级研发工程师, 目前专注于分布式计算方向. 参与 Bai...
2018-11-13 08:13:24 743
原创 Kafka分区分配策略(Partition Assignment Strategy)
问题用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消...
2018-11-11 16:35:26 230
原创 Apache Spark 2.4 正式发布,重要功能详细介绍
本文中文原文:https://www.iteblog.com/archives/2448.html翻译自:https://databricks.com/blog/2018...
2018-11-10 13:53:35 1826
原创 即将发布的 Apache Spark 2.4 都有哪些新功能
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。即将发布的 Apache Spark 2.4 版本...
2018-11-09 08:51:38 182
转载 普通程序员在大数据时代如何做技术的掌控者
在这个大数据的价值堪比石油和黄金的时代,不论你是否从事大数据相关的工作,了解和掌握大数据相关的技术都应该成为一个工程师的必备技能。因为到现在为止,不管是什么体量的公司,都...
2018-11-08 09:07:13 366
转载 Adaptive Execution如何让Spark SQL更高效更好用?
本文授权转载自”大数据架构“(ID:bigdata-ai-world),作者个人博客:http://www.jasongj.com/导读:本文所述内容均基于 2018 年...
2018-11-07 08:59:53 1765
转载 滴滴出行基于RocketMQ构建企业级消息队列服务的实践
本文整理自滴滴出行消息队列负责人 江海挺 在Apache RocketMQ开发者沙龙北京站的分享。通过本文,您将了解到滴滴出行:1. 在消息队列技术选型方面的思考;2. ...
2018-11-06 08:16:01 690
转载 月薪8k 与 月薪38K的程序员差距在哪里?
回想自己做开发的这么多年,我获得了很多,技术能力、培训、出国、大公司的,还记得刚刚出来第一年那段时间,太多东西不懂的,我都是一切听从老大的安排,敲敲代码,看看数据库,测试...
2018-11-05 08:26:21 247
转载 HBase 在爱奇艺的应用实践
本次分享来自中国HBase技术社区第七届MeetUp成都站,分享嘉宾郑浩南 爱奇艺 资深研发工程师,专注于大数据领域,负责Hadoop服务的运维研究以及DevOps平台开...
2018-11-04 15:50:48 252
转载 为什么已有Kafka,我们最终却选择了Apache Pulsar?
在一家商业公司,采用任何一项新技术,包括开源技术,都有一定的风险,即使这项技术具有显著的技术优势。Apache Pulsar 的引入经过了我们的深思熟虑和充分调研。我想跟...
2018-11-03 16:29:15 590
原创 HBase 多租户隔离技术:RegionServer Group 介绍及实战
下面文字如代码错乱,可以点击下面的 阅读原文 即可进入原文阅读。https://www.iteblog.com/archives/2435.html背景随着 Apache...
2018-11-02 08:21:36 2533
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人