- 博客(12)
- 收藏
- 关注
原创 HDFS 副本存放磁盘选择策略详解
下面代码或格式如有错乱,请访问原文 https://www.iteblog.com/archives/2341.html,或点击下面 阅读原文 即可进入在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不
2018-03-30 00:00:00 2313
原创 HDFS 副本存放磁盘选择策略详解
下面代码或格式如有错乱,请访问原文 https://www.iteblog.com/archives/2341.html,或点击下面 阅读原文 即可进入在 HDFS 中,...
2018-03-30 00:00:00 249
转载 一条数据的HBase之旅,简明HBase入门教程-Write全流程
本文由毕杰山同学贡献 ,原文首发于公众号:NoSQL漫谈 原文链接:http://mp.weixin.qq.com/s/cpsX0j7IVfi54CjVWpGoqg(点击下面 阅读原文 即可进入)如果将上篇内容理解为一个冗长的"铺垫",那么,从本文开始,"剧情"才开始正式展开。本文基于所给出的样例数据,介绍了将数据从Client写到RegionServer的全流程。本文整体思路:1. 前文内容回
2018-03-29 00:00:00 606
转载 一条数据的HBase之旅,简明HBase入门教程-Write全流程
本文由毕杰山同学贡献 ,原文首发于公众号:NoSQL漫谈 原文链接:http://mp.weixin.qq.com/s/cpsX0j7IVfi54CjVWpGoqg(点...
2018-03-29 00:00:00 289
转载 免费领取 | 140G+AI人工智能/复杂系统/数据挖掘/深度学习/Python资料
2017 年,AI技术汇聚了大量资本,在国务院出台的《新一代人工智能发展规划》中,人工智能核心产业规模计划在2030年超过10000亿元。据市场调研机构赛迪预计,2018年的人工智能市场将突破200亿元。目前,中国的人工智能研究正处在风口,行业巨头公司正逐渐完善自身在人工智能的产业链布局,不断涌现出的创业公司也持续在垂直领域深耕深挖。2018年将是名副其实的人工智能元年。随着 AI 技术的渗透,将
2018-03-27 00:00:00 796
转载 免费领取 | 140G+AI人工智能/复杂系统/数据挖掘/深度学习/Python资料
2017 年,AI技术汇聚了大量资本,在国务院出台的《新一代人工智能发展规划》中,人工智能核心产业规模计划在2030年超过10000亿元。据市场调研机构赛迪预计,2018...
2018-03-27 00:00:00 248
转载 一条数据的HBase之旅,简明HBase入门教程-开篇
本文由毕杰山同学贡献 ,原文首发于公众号:NoSQL漫谈 链接:https://mp.weixin.qq.com/s/CXsGcbbsKTMXotlwRFQ5xw一些常见的HBase新手问题什么样的数据适合用HBase来存储?既然HBase也是一个数据库,能否用它将现有系统中昂贵的Oracle替换掉?存放于HBase中的数据记录,为何不直接存放于HDFS之上?能否直接使用HBase来存储文件数据
2018-03-26 00:00:00 452
转载 干货 | 如何使用功能强大的 Apache Flink SQL
SQL 是数据处理的通用语言,每个使用数据的人应该都知道 SQL。 Apache Flink 为查询和处理批处理和流数据提供了 SQL 支持。 Flink 的 SQL 支持为阿里巴巴,华为和优步的大规模生产系统提供支持。基于 Flink SQL,这些公司已经为其内部用户构建了系统,并为付费客户提供了公开服务。这个 PPT 将讨论为什么你应该以及如何在 Flink 上利用 SQL 简单和强大的功能。
2018-03-23 00:00:00 6822 1
转载 Kafka 在华泰证券的探索与实践
本文转自公众号:上交所技术服务,https://mp.weixin.qq.com/s/q5aKSXEQDSxFh2wkwGfbLw,由樊建、谷正亮、陆俊发表在《交易技术前沿》第二十九期 (2017年12月),点击下面原文链接即可进入引言Apache Kafka 发源于 LinkedIn,于 2011 年成为 Apache 的孵化项目,随后于 2012 年成为 Apache 的顶级项目之一。按照官方
2018-03-21 00:00:00 1515
原创 干货 | Apache Spark 2.0 作业优化技巧
本 PPT 来自 IBM,里面有大量针对 Spark 2.0 进行优化的技巧,其中包括:1、如何给 Spark 作业分配内存及 CPU;2、监控和训练 Spark Streaming 作业;3、优化 RDD 的磁盘 IO 性能;4、OOM 异常查找和处理;5、GC 处理等;值得 Spark 开发工程师一看。PPT下载:https://www.iteblog.com/t.pdf 或 http://c
2018-03-13 00:00:00 572
原创 Apache Spark 2.3 重要特性介绍
本文翻译自:https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to
2018-03-02 00:00:00 4210
原创 Waterdrop:构建在Spark之上的简单高效数据处理系统
本文来自 Gary和RickyHuo,他们是Waterdrop开发者,从事大数据相关工作多年,熟悉Hadoop技术体系,参与过多个大数据开源项目,目前分别供职于一下科技和新浪。Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环
2018-03-01 00:00:00 6148
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人