自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Hadoop技术博文

大数据技术分享公众号。推送关于但不限于Spark、Hadoop、Flink、Kafka等大数据技术相关内容。

  • 博客(12)
  • 收藏
  • 关注

原创 HDFS 副本存放磁盘选择策略详解

下面代码或格式如有错乱,请访问原文 https://www.iteblog.com/archives/2341.html,或点击下面 阅读原文 即可进入在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不

2018-03-30 00:00:00 2313

原创 HDFS 副本存放磁盘选择策略详解

下面代码或格式如有错乱,请访问原文 https://www.iteblog.com/archives/2341.html,或点击下面 阅读原文 即可进入在 HDFS 中,...

2018-03-30 00:00:00 249

转载 一条数据的HBase之旅,简明HBase入门教程-Write全流程

本文由毕杰山同学贡献 ,原文首发于公众号:NoSQL漫谈  原文链接:http://mp.weixin.qq.com/s/cpsX0j7IVfi54CjVWpGoqg(点击下面 阅读原文 即可进入)如果将上篇内容理解为一个冗长的"铺垫",那么,从本文开始,"剧情"才开始正式展开。本文基于所给出的样例数据,介绍了将数据从Client写到RegionServer的全流程。本文整体思路:1. 前文内容回

2018-03-29 00:00:00 606

转载 一条数据的HBase之旅,简明HBase入门教程-Write全流程

本文由毕杰山同学贡献 ,原文首发于公众号:NoSQL漫谈  原文链接:http://mp.weixin.qq.com/s/cpsX0j7IVfi54CjVWpGoqg(点...

2018-03-29 00:00:00 289

转载 免费领取 | 140G+AI人工智能/复杂系统/数据挖掘/深度学习/Python资料

2017 年,AI技术汇聚了大量资本,在国务院出台的《新一代人工智能发展规划》中,人工智能核心产业规模计划在2030年超过10000亿元。据市场调研机构赛迪预计,2018年的人工智能市场将突破200亿元。目前,中国的人工智能研究正处在风口,行业巨头公司正逐渐完善自身在人工智能的产业链布局,不断涌现出的创业公司也持续在垂直领域深耕深挖。2018年将是名副其实的人工智能元年。随着 AI 技术的渗透,将

2018-03-27 00:00:00 796

转载 免费领取 | 140G+AI人工智能/复杂系统/数据挖掘/深度学习/Python资料

2017 年,AI技术汇聚了大量资本,在国务院出台的《新一代人工智能发展规划》中,人工智能核心产业规模计划在2030年超过10000亿元。据市场调研机构赛迪预计,2018...

2018-03-27 00:00:00 248

转载 一条数据的HBase之旅,简明HBase入门教程-开篇

本文由毕杰山同学贡献 ,原文首发于公众号:NoSQL漫谈  链接:https://mp.weixin.qq.com/s/CXsGcbbsKTMXotlwRFQ5xw一些常见的HBase新手问题什么样的数据适合用HBase来存储?既然HBase也是一个数据库,能否用它将现有系统中昂贵的Oracle替换掉?存放于HBase中的数据记录,为何不直接存放于HDFS之上?能否直接使用HBase来存储文件数据

2018-03-26 00:00:00 452

转载 干货 | 如何使用功能强大的 Apache Flink SQL

SQL 是数据处理的通用语言,每个使用数据的人应该都知道 SQL。 Apache Flink 为查询和处理批处理和流数据提供了 SQL 支持。 Flink 的 SQL 支持为阿里巴巴,华为和优步的大规模生产系统提供支持。基于 Flink SQL,这些公司已经为其内部用户构建了系统,并为付费客户提供了公开服务。这个 PPT 将讨论为什么你应该以及如何在 Flink 上利用 SQL 简单和强大的功能。

2018-03-23 00:00:00 6822 1

转载 Kafka 在华泰证券的探索与实践

本文转自公众号:上交所技术服务,https://mp.weixin.qq.com/s/q5aKSXEQDSxFh2wkwGfbLw,由樊建、谷正亮、陆俊发表在《交易技术前沿》第二十九期 (2017年12月),点击下面原文链接即可进入引言Apache Kafka 发源于 LinkedIn,于 2011 年成为 Apache 的孵化项目,随后于 2012 年成为 Apache 的顶级项目之一。按照官方

2018-03-21 00:00:00 1515

原创 干货 | Apache Spark 2.0 作业优化技巧

本 PPT 来自 IBM,里面有大量针对 Spark 2.0 进行优化的技巧,其中包括:1、如何给 Spark 作业分配内存及 CPU;2、监控和训练 Spark Streaming 作业;3、优化 RDD 的磁盘 IO 性能;4、OOM 异常查找和处理;5、GC 处理等;值得 Spark 开发工程师一看。PPT下载:https://www.iteblog.com/t.pdf 或 http://c

2018-03-13 00:00:00 572

原创 Apache Spark 2.3 重要特性介绍

本文翻译自:https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to

2018-03-02 00:00:00 4210

原创 Waterdrop:构建在Spark之上的简单高效数据处理系统

本文来自 Gary和RickyHuo,他们是Waterdrop开发者,从事大数据相关工作多年,熟悉Hadoop技术体系,参与过多个大数据开源项目,目前分别供职于一下科技和新浪。Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环

2018-03-01 00:00:00 6148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除