自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Hadoop技术博文

大数据技术分享公众号。推送关于但不限于Spark、Hadoop、Flink、Kafka等大数据技术相关内容。

  • 博客(27)
  • 收藏
  • 关注

转载 为了让你更全面的了解Apache Flink,我们做了这本专刊

Qubole最近的一份市场调查报告显示,ApacheFlink 是2018年开源大数据生态中发展“最快”的引擎。和2017年相比增长了125% 。为了让大家更为全面的了解...

2018-11-30 08:33:05 504

原创 干货 | Spark 2.4 高阶函数介绍

Apache Spark 2.4 在近期已经发布了(参见Apache Spark 2.4 正式发布,重要功能详细介绍),其中为我们带来了24个内置操作数组和 map 的函...

2018-11-29 08:08:39 928

转载 AI应届博士生年薪80W登上微博热搜

AI人才年薪80万登上微博热搜图片来源于微博热搜截图据报道,今年的AI应届博士生年薪已经涨至80万,与去年的50万相比,整整涨了60%,并且随着人才缺口的扩大,涨薪的趋势...

2018-11-28 09:13:16 493

转载 通过BulkLoad快速将海量数据导入到Hbase

在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在...

2018-11-27 08:52:46 448

转载 深入理解Flink核心技术

Flink项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多的人关注Flink项目。本文将深入分析Flink一些关键的技术与特性,...

2018-11-26 18:00:00 1710

转载 数据结构与算法?看这篇就够了!

程序 = 数据结构 + 算法             ——图灵奖得主,计算机科学家N.Wirth(沃斯)作为程序员,我们做机器学习也好,做python开发也好,java开...

2018-11-23 08:37:43 928

转载 HBase在人工智能场景的使用

近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数...

2018-11-22 08:03:39 238

原创 Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍

Apache Spark 2.4 是在11月08日正式发布的,其带来了很多新的特性具体可以参见Apache Spark 2.4 正式发布,重要功能详细介绍,本文主要介绍这...

2018-11-22 08:03:39 511

转载 大数据开发者应该知道的分布式系统 CAP 理论

无论你是一个系统架构师,还是一个普通开发,当你开发或者设计一个分布式系统的时候,CAP理论是无论如何也绕不过去的。本文就来介绍一下到底什么是CAP理论,如何证明CAP理论...

2018-11-21 08:26:00 251

转载 【真不用等了,这次动静太大你瞧好了】大军即将进入...

随着大数据时代的到来,【这次国家教育部的改革要动真格了】,JAVA程序员们仅有的一点点竞争力很快就不复存在,为什么这么说呢?人生别只顾低头拉车,更要抬头看路!国家教育部全...

2018-11-20 08:46:00 285

转载 HBase高可用原理与实践

本文来自网易云社区,作者蒋鸿翔。 原文链接:https://www.cnblogs.com/163yun/p/9469301.html前言 前段时间有套线上HBase出了...

2018-11-19 20:22:01 211

原创 HBase 多租户隔离技术:RegionServer Group 介绍及实战

下面文字如代码错乱,可以点击下面的 阅读原文 即可进入原文阅读。https://www.iteblog.com/archives/2435.html背景随着 Apache...

2018-11-18 19:29:44 503

转载 干货 | Streaming SQL 的基础

本文来自于 QCon London 2018,分享者来自 Google 的软件开发工程师 Tyler Akidau,其是 Streaming 101 和 Streamin...

2018-11-17 19:28:54 196

原创 OpenTSDB 底层 HBase 的 Rowkey 是如何设计的

在https://www.iteblog.com/archives/2450.html文章中有实际的案例分析 Rowkey 如何设计的,感兴趣的可以点击下面阅读原文去查看...

2018-11-16 08:18:53 1050

转载 对话AI一线大咖,零基础入门Python机器学习与深度学习

如果村里通了网,那你一定知道【AI】人工智能。如果你会网上冲浪,那你一定看到过【ML】机器学习。小编在网上看到一个段子:ML派坐落美利坚合众山中,百年来武学奇才辈出,隐然...

2018-11-15 07:58:54 328

原创 SparkRDMA:使用RDMA技术提升Spark的Shuffle性能

如下面的图片看不清,请参见 https://www.iteblog.com/archives/1964.html,或点击下面阅读原文即可。Spark Shuffle 基础...

2018-11-14 08:40:20 270

原创 MapReduce作业大规模迁移Apache Spark在百度的实践

本文来自于2018年11月3日在上海举办的上海Spark+AI第十五次聚会。分享者叶先进,百度智能云技术二部, 高级研发工程师, 目前专注于分布式计算方向. 参与 Bai...

2018-11-13 08:13:24 743

原创 Kafka分区分配策略(Partition Assignment Strategy)

问题用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消...

2018-11-11 16:35:26 230

原创 Apache Spark 2.4 正式发布,重要功能详细介绍

本文中文原文:https://www.iteblog.com/archives/2448.html翻译自:https://databricks.com/blog/2018...

2018-11-10 13:53:35 1826

原创 即将发布的 Apache Spark 2.4 都有哪些新功能

本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。即将发布的 Apache Spark 2.4 版本...

2018-11-09 08:51:38 182

转载 普通程序员在大数据时代如何做技术的掌控者

在这个大数据的价值堪比石油和黄金的时代,不论你是否从事大数据相关的工作,了解和掌握大数据相关的技术都应该成为一个工程师的必备技能。因为到现在为止,不管是什么体量的公司,都...

2018-11-08 09:07:13 366

转载 Adaptive Execution如何让Spark SQL更高效更好用?

本文授权转载自”大数据架构“(ID:bigdata-ai-world),作者个人博客:http://www.jasongj.com/导读:本文所述内容均基于 2018 年...

2018-11-07 08:59:53 1765

转载 滴滴出行基于RocketMQ构建企业级消息队列服务的实践

本文整理自滴滴出行消息队列负责人 江海挺 在Apache RocketMQ开发者沙龙北京站的分享。通过本文,您将了解到滴滴出行:1. 在消息队列技术选型方面的思考;2. ...

2018-11-06 08:16:01 690

转载 月薪8k 与 月薪38K的程序员差距在哪里?

回想自己做开发的这么多年,我获得了很多,技术能力、培训、出国、大公司的,还记得刚刚出来第一年那段时间,太多东西不懂的,我都是一切听从老大的安排,敲敲代码,看看数据库,测试...

2018-11-05 08:26:21 247

转载 HBase 在爱奇艺的应用实践

本次分享来自中国HBase技术社区第七届MeetUp成都站,分享嘉宾郑浩南 爱奇艺 资深研发工程师,专注于大数据领域,负责Hadoop服务的运维研究以及DevOps平台开...

2018-11-04 15:50:48 250

转载 为什么已有Kafka,我们最终却选择了Apache Pulsar?

在一家商业公司,采用任何一项新技术,包括开源技术,都有一定的风险,即使这项技术具有显著的技术优势。Apache Pulsar 的引入经过了我们的深思熟虑和充分调研。我想跟...

2018-11-03 16:29:15 590

原创 HBase 多租户隔离技术:RegionServer Group 介绍及实战

下面文字如代码错乱,可以点击下面的 阅读原文 即可进入原文阅读。https://www.iteblog.com/archives/2435.html背景随着 Apache...

2018-11-02 08:21:36 2533

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除