hadoop
开心自由天使
这个作者很懒,什么都没留下…
展开
-
一篇文章搞懂 数据海洋 数据湖 数据池 数据水坑 数据孤岛 数据仓库 基本概念
一。数据湖由数据驱动的决策非常流行。从数据科学,机器学习和高级分析到实时仪表板,决策者都需要数据来帮助做出决策。该数据需要一个家,而数据湖是创建该家的首选解决方案。该术语由Pentaho的CTO James Dixon发明并首次描述,他在博客中写道:“如果您将数据集市视为瓶装水的存储库,经过清洗,包装和结构化以便于使用,那么数据湖就很大了。水体处于更自然的状态。数据湖的内容从源头流入整个湖中...原创 2019-11-13 17:31:40 · 9781 阅读 · 0 评论 -
如何实现Windows,Mac,Linux访问Hadoop HDFS 文件系统
最近有个需求需要实现windows 上直接访问Hadoop HDFS 文件系统,并设置相关权限,前提条件:1.hadoop 健康集群一个2.centos7 系统一个3. hadoop-fuse-dfs 安装软件4. samba4 安装软件第一步: 安装hadoop-fuse-dfs使用root用户登陆centos7修Ccentos-base.repo添加以下内容到文件最后:...原创 2019-10-31 18:13:13 · 1702 阅读 · 0 评论 -
Hadoop3.1.1+Hbase3.0 完全分布式集群部署实战
Hadoop3.x 出来已经有一段时间了,之前安装的都是Hadoop3.0 alpha1--beta4,各个版本基本都尝试过了,最近想, 如何把Hbase3.0 和Hadoop3.x 有机的结合在一起。 看了官方的文档后,心里凉了一大截。因为官方还没宣布正式支持。http://hbase.apache.org/book.html#arch.overview 后来就干脆把H...原创 2018-09-16 12:22:25 · 5556 阅读 · 0 评论 -
Hadoop MapReduce 过程详解
MapReduce是一种用于数据处理的编程模型。 该模型很简单,但不易于表达有用的程序.Hadoop可以运行用各种语言编写的MapReduce程序; 在本章中,我们将看一下用Java程序。 最重要的是,MapReduce程序本质上是并行的,因此将大规模的数据分析交给任何拥有足够机器的人。 MapReduce对于大型数据集来说是独一无二的,所以让我们先看一下。 使用Hadoop分析数据要...原创 2018-10-11 08:27:48 · 1124 阅读 · 0 评论 -
Ansible高级应用--动态创建hosts实践,简化部署配置文件。
使用Ansible 时不可少的时hosts 文件,每次运行都会用到。但是这个hosts文件经常成为项目难以管理的问题源头。因为需要定义太底层的hosts 文件。实际项目比这个要复杂很多,如果我们能通过面向对象的原理来管理hosts 文件,这样生活就会简单和可控制的多。经过2年多的实际的项目部署测试和验证,终于摸索出一套可行的办法,现在分享给大家试试。基本思路是: 1.全局一个input.ym...原创 2018-11-09 08:49:37 · 2878 阅读 · 0 评论 -
hadoop错误解决办法:-------HDFS上传文件保存错误或速度很慢
出现症状:2018-11-22 11:28:12,711 WARN hdfs.DataStreamer: Abandoning BP-2142139802-10.20.2.1-1536240602405:blk_1073765062_242892018-11-22 11:28:12,712 WARN hdfs.DataStreamer: Excluding datanode DatanodeI...原创 2018-11-22 11:51:59 · 3594 阅读 · 0 评论 -
Hadoop Yarn 高可用配置时的错误解决办法
找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster配置Yarn ResourceManager 高可用时,遇到了一个坑。找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster参考了网上各种解决办法,运行演示程序 cd $HADOOP_HOME/share/hadoop...原创 2019-09-24 09:36:53 · 2637 阅读 · 0 评论