大数据
文章平均质量分 74
hadoop、kafka、hbase、streaming、batch等等
天天water
不要在该奋斗的年纪,选择安逸。
展开
-
ETL讲解(很详细!!!)
ETL讲解(很详细!!!)ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS(Operation...转载 2021-03-03 14:34:36 · 4849 阅读 · 2 评论 -
大数据处理的重要技术发展小结
按照时间线查看超大规模数据处理的重要技术以及它们产生的年代:可以把超大规模数据处理的技术发展分为三个阶段:石器时代,青铜时代,蒸汽机时代。石器时代石器时代”来比喻MapReduce诞生之前的时期。数据的大规模处理问题早已存在。早在2003年的时候,Google就已经面对大于600亿的搜索量。但是数据的大规模处理技术还处在彷徨阶段。当时每个公司或者个人可能都有自己的一套工具处理数据。却没有提炼抽象出一个系统的方法。青铜时代2003年,MapReduce的诞生标志了超大规模数据.原创 2021-02-18 16:33:15 · 2019 阅读 · 0 评论 -
大数据核心知识点:Hbase、Spark、Hive、MapReduce概念理解、特点及机制
常用大数据开发基础知识点主要集中在Hbase、Spark、Hive和MapReduce上,基础概念、特点、应用场景等。目录一、Hbase1.1、Hbase是什么?1.2、HBase的特点二、Spark三、Hive3.1、Hive是什么3.2、为什么要使用Hive3.3 Hive架构四、Mapreduce4.1、MapReduce是什么?4.2、为什么需要 MapReduce?4.3、MapReduce核心机制一、Hbase1.1、Hbase是..转载 2021-01-17 11:26:47 · 2561 阅读 · 0 评论 -
hadoop streaming编程和golang实现mr demo
hadoop streaming是什么?为什么要用hadoop streaming?hadoop streaming怎么用?接下来我们就来解决这些问题。1、首先,hadoop streaming是一种编程工具,它是由hadoop提供的。2、为什么要用hadoop streaming呢?hadoop框架是用java语言写的,也就是说,hadoop框架中运行的所有应用程序都要用java语言来写才能正常地在hadoop集群中运行。那么问题来了,如果有些开发者就是不会java语言,但是又想使用mapredu转载 2020-12-01 15:06:08 · 4465 阅读 · 0 评论 -
Hadoop集群-HDFS集群中大数据运维常用的命令总结
一.查看hadf的帮助信息[hdfs@node101.yinzhengjie.org.cn ~]$ hdfsUsage: hdfs [--config confdir] COMMAND where COMMAND is one of: dfs run a filesystem command on the file systems supported in Hadoop. namenode -format format the DF转载 2020-11-30 15:16:15 · 6010 阅读 · 0 评论 -
MongoDB、ElasticSearch、Redis、HBase这四种热门数据库的优缺点及应用场景
MongoDBMongoDB是当今最火爆的NoSQL数据库。MongoDB最早在09年发布,算得上是早期大数据时代的数据库代表作了。随着MongoDB的火爆,研发MongoDB的团队还专门成立了MongoDB公司来对MongoDB进行维护和推广,现在这个公司已经在纳斯达克上市,市值达到十几亿美元,算得上是技术变现的典范了。MongoDB最大的特点是表结构灵活可变,字段类型可以随时修改。MongoDB中的每一行数据只是简单的被转化成Json格式后存储,因此MongoDB中压根没有MySQL中表结构这样转载 2020-11-18 14:28:22 · 4341 阅读 · 0 评论 -
Hadoop之Shuffle机制详解
1.什么是Shuffle机制1.1)在Hadoop中数据从Map阶段传递给Reduce阶段的过程就叫Shuffle,Shuffle机制是整个MapReduce框架中最核心的部分。1.2)Shuffle翻译成中文的意思为:洗牌、发牌(核心机制:数据分区、排序、缓存)2.Shuffle的作用范围一般把数据从Map阶段输出到Reduce阶段的过程叫Shuffle,所以Shuffle的作用范围是Map阶段数据输出到Reduce阶段数据输入这一整个中间过程!3.Shuffle图解上图是官方对S转载 2020-09-01 19:16:34 · 5472 阅读 · 0 评论 -
hadoop streaming编程简单入门示例
火山日常啰嗦hadoop streaming是什么?为什么要用hadoop streaming?hadoop streaming怎么用?接下来我们就来解决这些问题。1、首先,hadoop streaming是一种编程工具,它是由hadoop提供的。2、为什么要用hadoop streaming呢?hadoop框架是用java语言写的,也就是说,hadoop框架中运行的所有应用程序都要用java语言来写才能正常地在hadoop集群中运行。那么问题来了,如果有些开发者就是不会java语言,但是又想使用转载 2020-08-31 19:55:20 · 4334 阅读 · 0 评论