![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 90
ElsaWu1998
大数据工程师学习博客
展开
-
Hadoop基础学习笔记系列(八)MapReduce框架、设计原则约束、实例
目录框架用户定义栗子:汇总文章词语原则原则上好的键值任务分解设计设计约束一些栗子cascadejoin:基于key组合表向量乘法:A x B其他理念:Bring computation to DATA框架何时使用?数据需要经常update——DBMS需要扫描数据——MR用户定义所有数据都会被转换成键值对的形式(基本单元)<key,value>mapper(独立可分,在数据上运行):应用到数据的function,输入:数据,输出:键值对reducer:应用到中间数据的fun原创 2022-02-15 23:36:38 · 590 阅读 · 0 评论 -
Hadoop基础学习笔记系列(七)HDFS访问命令、API和应用
文章目录访问1 通过命令行使用HDFS2 应用编程接口3 HDFS NFS Gateway4 其他Apache FlumeApache Sqoop应用访问1 通过命令行使用HDFS通过bin/hdfs调用user命令移动数据获取文件信息Administrator命令获取HDFS状态信息debug命令可以查看更多Commands:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSComman原创 2022-02-15 16:52:31 · 1035 阅读 · 0 评论 -
Hadoop基础学习笔记系列(六)HDFS架构
目录概览性能范围块大小HDFS读写过程写过程读过程HDFS调优参数0 调优1 HDFS Block Size2 HDFS Replication3 NameNode,DataNode system4 栗子:分布式复制HDFS健壮性健壮性如何达到?概览可扩展的分布式文件系统将数据以节点形式分布在本地磁盘上高度容错:可以使用低成本商业硬件数以千计的节点:需要处理节点或硬盘的failure轻量级高流通量Approach:一致性模型:写一次读多次数据复制:可以处理硬原创 2022-02-15 00:03:09 · 1666 阅读 · 0 评论 -
Hadoop基础学习笔记系列(五)Hadoop应用简介
文章目录1 应用分类数据库Querying机器学习2 Pig3 Hive4 HBase特征栗子1 应用分类数据库Avro:Apache Avro™ 1.11.0 DocumentationApache Avro™是一个数据序列化系统。Avro提供:丰富的数据结构。一种紧凑、快速的二进制数据格式。一个容器文件,用来存储持久数据。远程过程调用(RPC)。与动态语言的简单集成。代码生成不需要读取或写入数据文件,也不需要使用或实现RPC协议。代码生成是一种可选的优化,只值得在静态类型语言中实原创 2022-02-14 19:28:54 · 603 阅读 · 0 评论 -
Hadoop基础学习笔记系列(四)Hadoop运行环境与资源调度
文章目录1 运行环境2 经典MR框架的局限3 下一代:代替经典MR的框架layout优化策略YARN:Tez:Spark:栗子1. Tez运行Hive2. Spark运行4 资源调度1 运行环境要确保task运行在有数据的node上。早期的运行框架:MR框架2 经典MR框架的局限不适合使用MR的情景:交互数据探索迭代数据处理(需要很多次将数据导入磁盘)3 下一代:代替经典MR的框架YARN,Tez,SparkApache Hadoop YARN (Yet Another Res原创 2022-02-14 15:13:55 · 524 阅读 · 0 评论 -
Hadoop基础学习笔记系列(三)Hadoop堆栈
目录1 基本Hadoop组件2 应用和框架(在基本组件之上)3 HDFS设计最初的设计Hadoop2的HDFS4 MR框架和YARNMR框架最初的MR框架下一代:YARN1 基本Hadoop组件Hadoop CommonHDFSYARNMR2 应用和框架(在基本组件之上)HBase支持大型表的可扩展数据仓库Hive数据仓库基础设施,提供数据摘要和即席查询Pig高级数据流语言和并行计算执行框架Spark快速通用的计算引擎,可以使用HDFS文件系统。3 HDFS设计最初原创 2022-02-13 23:52:31 · 237 阅读 · 0 评论 -
Hadoop基础学习笔记系列(二)基于商业情景上手Hadoop【2】
目录情景假设将结构数据和非结构数据关联起来1 上传数据2 建立Hive表并通过Impala和Hue查询数据情景假设仅仅产出关于结构数据的数据报告无法使上级满足,因此需要使用其他方法展现数据价值。提出第二个问题:被浏览最多次的商品销售得最多吗?hadoop可以在不重建整个数据库得情况下存储非结构和半结构数据,因此我们可以存储和处理日志事件数据。在这一章,我们会使用网页点击流数据(使用Flume来提取)。并且我们会实时提取、转换样本网络点击流数据Flume是一个可伸缩的实时框架,当您将数据传输到可伸原创 2021-10-18 21:27:00 · 79 阅读 · 0 评论 -
Hadoop基础学习笔记系列(二)基于商业情景上手Hadoop【1】
目录Virtualbox下载安装Cloudera QuickStart VM下载Virtualbox下载安装下载路径:https://www.virtualbox.org/wiki/DownloadsCloudera QuickStart VM下载系统:Windows 7+, Mac OS X 10.10+, Ubuntu 14.04+ or CentOS 6+ VirtualBox 5+, VMWare Workstation 9+ or VMWare Fusion 7+硬件需求:Qu原创 2021-10-18 20:01:13 · 190 阅读 · 0 评论 -
Hadoop学习+实战开发笔记系列(一)概论
目录Quick View基本组件(一)Hadoop 通用(Hadoop common)(二)Hadoop 分布式文件系统(HDFS)(三)Hadoop MapReduce(四)Hadoop YARNHadoop生态系统中的工具(1)Sqoop(2)HBase(3)PIG(4)Hive(5)Oozie(6)ZooKeeper(7)Flume(8)Spark内容来自Coursea上Hadoop课程的笔记总结。Quick ViewHadoop是Apache开源软件框架,用于在商业集群上存储和大规模处理数原创 2021-09-22 19:09:40 · 133 阅读 · 0 评论