2018年03月_Hadoop技术博文

原创 HDFS 副本存放磁盘选择策略详解

下面代码或格式如有错乱，请访问原文 https://www.iteblog.com/archives/2341.html，或点击下面阅读原文即可进入在 HDFS 中，DataNode 将数据块存储到本地文件系统目录中，具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中，一般都会配置多个目录，并且把这些目录分别配置到不

2018-03-30 00:00:00 2313

原创 HDFS 副本存放磁盘选择策略详解

下面代码或格式如有错乱，请访问原文 https://www.iteblog.com/archives/2341.html，或点击下面阅读原文即可进入在 HDFS 中，...

2018-03-30 00:00:00 249

转载一条数据的HBase之旅，简明HBase入门教程-Write全流程

本文由毕杰山同学贡献，原文首发于公众号：NoSQL漫谈原文链接：http://mp.weixin.qq.com/s/cpsX0j7IVfi54CjVWpGoqg（点击下面阅读原文即可进入）如果将上篇内容理解为一个冗长的"铺垫"，那么，从本文开始，"剧情"才开始正式展开。本文基于所给出的样例数据，介绍了将数据从Client写到RegionServer的全流程。本文整体思路：1. 前文内容回

2018-03-29 00:00:00 606

转载一条数据的HBase之旅，简明HBase入门教程-Write全流程

本文由毕杰山同学贡献，原文首发于公众号：NoSQL漫谈原文链接：http://mp.weixin.qq.com/s/cpsX0j7IVfi54CjVWpGoqg（点...

2018-03-29 00:00:00 289

转载免费领取 | 140G+AI人工智能/复杂系统/数据挖掘/深度学习/Python资料

2017 年，AI技术汇聚了大量资本，在国务院出台的《新一代人工智能发展规划》中，人工智能核心产业规模计划在2030年超过10000亿元。据市场调研机构赛迪预计，2018年的人工智能市场将突破200亿元。目前，中国的人工智能研究正处在风口，行业巨头公司正逐渐完善自身在人工智能的产业链布局，不断涌现出的创业公司也持续在垂直领域深耕深挖。2018年将是名副其实的人工智能元年。随着 AI 技术的渗透，将

2018-03-27 00:00:00 796

转载免费领取 | 140G+AI人工智能/复杂系统/数据挖掘/深度学习/Python资料

2017 年，AI技术汇聚了大量资本，在国务院出台的《新一代人工智能发展规划》中，人工智能核心产业规模计划在2030年超过10000亿元。据市场调研机构赛迪预计，2018...

2018-03-27 00:00:00 248

转载一条数据的HBase之旅，简明HBase入门教程-开篇

本文由毕杰山同学贡献，原文首发于公众号：NoSQL漫谈链接：https://mp.weixin.qq.com/s/CXsGcbbsKTMXotlwRFQ5xw一些常见的HBase新手问题什么样的数据适合用HBase来存储？既然HBase也是一个数据库，能否用它将现有系统中昂贵的Oracle替换掉？存放于HBase中的数据记录，为何不直接存放于HDFS之上？能否直接使用HBase来存储文件数据

2018-03-26 00:00:00 452

转载干货 | 如何使用功能强大的 Apache Flink SQL

SQL 是数据处理的通用语言，每个使用数据的人应该都知道 SQL。 Apache Flink 为查询和处理批处理和流数据提供了 SQL 支持。 Flink 的 SQL 支持为阿里巴巴，华为和优步的大规模生产系统提供支持。基于 Flink SQL，这些公司已经为其内部用户构建了系统，并为付费客户提供了公开服务。这个 PPT 将讨论为什么你应该以及如何在 Flink 上利用 SQL 简单和强大的功能。

2018-03-23 00:00:00 6822 1

转载 Kafka 在华泰证券的探索与实践

本文转自公众号：上交所技术服务，https://mp.weixin.qq.com/s/q5aKSXEQDSxFh2wkwGfbLw，由樊建、谷正亮、陆俊发表在《交易技术前沿》第二十九期（2017年12月），点击下面原文链接即可进入引言Apache Kafka 发源于 LinkedIn，于 2011 年成为 Apache 的孵化项目，随后于 2012 年成为 Apache 的顶级项目之一。按照官方

2018-03-21 00:00:00 1515

原创干货 | Apache Spark 2.0 作业优化技巧

本 PPT 来自 IBM，里面有大量针对 Spark 2.0 进行优化的技巧，其中包括：1、如何给 Spark 作业分配内存及 CPU；2、监控和训练 Spark Streaming 作业；3、优化 RDD 的磁盘 IO 性能；4、OOM 异常查找和处理；5、GC 处理等；值得 Spark 开发工程师一看。PPT下载：https://www.iteblog.com/t.pdf 或 http://c

2018-03-13 00:00:00 572

原创 Apache Spark 2.3 重要特性介绍

本文翻译自：https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html为了继续实现 Spark 更快，更轻松，更智能的目标，Spark 2.3 在许多模块都做了重要的更新，比如 Structured Streaming 引入了低延迟的连续处理（continuous processing）；支持 stream-to

2018-03-02 00:00:00 4210

原创 Waterdrop：构建在Spark之上的简单高效数据处理系统

本文来自 Gary和RickyHuo，他们是Waterdrop开发者，从事大数据相关工作多年，熟悉Hadoop技术体系，参与过多个大数据开源项目，目前分别供职于一下科技和新浪。Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处，我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环

2018-03-01 00:00:00 6148

Hadoop技术博文

原创 HDFS 副本存放磁盘选择策略详解

原创 HDFS 副本存放磁盘选择策略详解

转载一条数据的HBase之旅，简明HBase入门教程-Write全流程

转载一条数据的HBase之旅，简明HBase入门教程-Write全流程

转载免费领取 | 140G+AI人工智能/复杂系统/数据挖掘/深度学习/Python资料

转载免费领取 | 140G+AI人工智能/复杂系统/数据挖掘/深度学习/Python资料

转载一条数据的HBase之旅，简明HBase入门教程-开篇

转载干货 | 如何使用功能强大的 Apache Flink SQL

转载 Kafka 在华泰证券的探索与实践

原创干货 | Apache Spark 2.0 作业优化技巧

原创 Apache Spark 2.3 重要特性介绍

原创 Waterdrop：构建在Spark之上的简单高效数据处理系统

空空如也

空空如也