Hadoop生态体系
DougLeaMrConcurrency
内推阿里巴巴、蚂蚁集团,校招社招都可以,有需要推荐的请私聊我。
展开
-
Sqoop:sqoop简介及原理,安装配置sqoop,sqoop简单的使用案例,RDBMS导入数据到HDFS,Hive,HBase,Hive/HDFS导出到RDBMS,脚本打包,sqoo常用命令及参数
文章目录第1章 Sqoop简介第2章 Sqoop原理第3章 Sqoop安装3.1 下载并解压3.2 修改配置文件3.3 拷贝JDBC驱动3.4 验证Sqoop3.5 测试Sqoop是否能够成功连接数据库第4章 Sqoop的简单使用案例4.1 导入数据4.1.1 RDBMS到HDFS4.1.2RDBMS到Hive4.1.3RDBMS到Hbase...原创 2019-09-06 21:40:40 · 1122 阅读 · 0 评论 -
HBase项目之谷粒微博:创建命名空间,微博内容表,用户关系表,微博收件箱表,发布微博内容,添加关注用户,移除(取关)用户,获取关注的人的微博内容,HBase实战项目
Hbase实战之谷粒微博1 需求分析1) 微博内容的浏览,数据库表设计2) 用户社交体现:关注用户,取关用户3) 拉取关注的人的微博内容2代码实现2.1 代码设计总览:1) 创建命名空间以及表名的定义2) 创建微博内容表3) 创建用户关系表4) 创建用户微博内容接收邮件表5) 发布微博内容6) 添加关注用户7) 移除(取关)用户8) 获取关...原创 2019-09-05 21:42:43 · 937 阅读 · 0 评论 -
HBase第三天:HBase优化,HBase高可用,预分区,RowKey设计,内存优化,基础优化,HBase项目谷粒微博,HBase在商业项目中的能力,布隆过滤器,HBase2.x新特性,常见问题
接上篇第6章的6.4.2:HBase第二天:HBase的API操作,判断表存在、创建删除表、获取表中一行或指定列族数据、向表中插入数据、HBase的wordcount、自定义HBaseMapReduce、Hbase集成Hive本文目录第7章 HBase优化7.1 高可用7.2 预分区7.3 RowKey设计7.4 内存优化7.5 基础优化第8章 Hbase实战之谷粒...原创 2019-09-05 21:36:20 · 506 阅读 · 0 评论 -
HBase第二天:HBase的API操作,判断表存在、创建删除表、获取表中一行或指定列族数据、向表中插入数据、HBase的wordcount、自定义HBaseMapReduce、Hbase集成Hive
接上篇第5章的5.4:HBase第一天:HBase组件及架构、安装HBase部署集群、HBase的shell操作、HBase数据结构、命名空间、原理、读写流程、flush与合并、hbase-default.xml配置详解第6章 HBase API操作6.1 环境准备6.2 HBaseAPI6.2.1 获取Configuration对象6.2.2 判断表是否存在6.2.3 创...原创 2019-09-04 20:26:20 · 2023 阅读 · 0 评论 -
HBase第一天:HBase组件及架构、安装HBase部署集群、HBase的shell操作、HBase数据结构、命名空间、原理、读写流程、flush与合并、hbase-default.xml配置详解
本文目录第1章 HBase简介1.1 什么是HBase1.2 Hbase特点1.3HBase架构1.3HBase中的角色1.3.1 HMaster1.3.2 RegionServer1.2.3 其他组件第2章 HBase安装2.1 Zookeeper正常部署2.2 Hadoop正常部署2.3 HBase的解压2.4 HBase的配置文件2...原创 2019-09-02 21:34:48 · 1452 阅读 · 0 评论 -
Kafka(下):Kafka消费者API,producer拦截器(interceptor)及案例,kafka流Streams,Stream数据清洗案例,Kafka配置信息,flume对接Kafka
接上篇第4章的4.2.4:Kafka(上):Kafka消息队列、Kafka架构、安装部署Kafka集群、命令行操作、工作流程分析、生产过程分析、Broker保存消息、消费过程、低级高级API、Kafka API实战、新旧API文章目录4.3 Kafka消费者Java API4.3.1 高级API4.3.2 低级API第5章 Kafka producer拦截器(intercept...原创 2019-09-08 09:06:09 · 951 阅读 · 0 评论 -
Kafka(上):Kafka消息队列、Kafka架构、安装部署Kafka集群、命令行操作、工作流程分析、生产过程分析、Broker保存消息、消费过程、低级高级API、Kafka API实战、新旧API
文章目录第1章 Kafka概述1.1 消息队列1.2 为什么需要消息队列1.3 什么是Kafka1.4 Kafka架构第2章 Kafka集群部署2.1 环境准备2.1.1 集群规划2.1.2 jar包下载2.2 Kafka集群部署2.3 Kafka命令行操作第3章 Kafka工作流程分析3.1 Kafka生产过程分析3.1.1 写入方式3.1.2 分区(Partiti...原创 2019-08-31 20:36:31 · 702 阅读 · 0 评论 -
大数据之Flume:Flume组成架构、拓扑结构、内部原理、Flume下载及安装部署、多数据源汇总、监控端口、读取文件、Ganglia安装与部署、自定义MySQLSource、常见正则表达式及语法
文章目录第1章 Flume概述1.1 Flume概念1.2 Flume组成架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3 Flume拓扑结构1.4 Flume Agent内部原理第2章 快速入门2.1 Flume安装地址2.2 安装部署第3章 案例实操3.1 监控端口数据官方案例3.2 实...原创 2019-08-30 22:59:40 · 617 阅读 · 0 评论 -
Hive项目之谷粒影音:ETL清洗原数据、Hive统计视频观看数top10、视频类别top、视频观看数top其所属类别、类别流量top、类别热度top、上传视频用户数量top、类别视频观看top
Hive实战之谷粒影音项目数据下载地址: guiliVideo.zip谷粒影音项目视频表、用户表包含内容:两个文件夹User表中的74702条数据video表中5张表,每张表中都有多条数据需求描述统计硅谷影音视频网站的常规指标,各种TopN指标:--统计视频观看数Top10--统计视频类别热度Top10--统计视频观看数Top20所属类别--...原创 2019-08-29 21:47:49 · 2563 阅读 · 2 评论 -
Hive第五天:解决数据倾斜问题、Hive并行优化、严格模式、JVM重用、推测执行、Hive压缩、执行计划(Explain)、Hive实战项目谷粒影音、Hive常见错误及解决方案、yarn内存溢出
接上篇第9章的9.3.10:Hive第四天:Hive函数、Hive压缩配置、Hive文件存储格式、Orc与Parquet、Hive企业级调优、Hive大小表Join、MapJoin、GroupBy、行列过滤去重统计、动态分区调整9.4数据倾斜9.4.1合理设置Map数9.4.2小文件进行合并9.4.3复杂文件增加Map数9.4.4合理设置Reduce数9.5并行执行9.6严格模式...原创 2019-08-29 22:20:56 · 482 阅读 · 0 评论 -
Hive第四天:Hive函数、Hive压缩配置、Hive文件存储格式、Orc与Parquet、Hive企业级调优、Hive大小表Join、MapJoin、GroupBy、行列过滤去重统计、动态分区调整
接上篇第6章的6.7.4Hive第三天:Hive的Join语句、Hive数据排序、分区排序、OrderBy全局排序、MR内部排序SortBy、ClusterBy、Hive分桶及抽样查询、行转列与列转行、窗口函数,赋空值本文目录6.7.5Rank第7章函数7.1系统内置函数7.2自定义函数7.3自定义UDF函数第8章压缩和存储8.1Hadoop源码编译支持Snappy压...原创 2019-08-28 21:53:53 · 818 阅读 · 1 评论 -
Hive第三天:Hive的Join语句、Hive数据排序、分区排序、OrderBy全局排序、MR内部排序SortBy、ClusterBy、Hive分桶及抽样查询、行转列与列转行、窗口函数,赋空值
接上篇第6章的6.3.2:Hive第二天:Hive的创建表、管理表与外部表、分区表、修改表、删除表、Hive的DML数据操作、Hive数据导入导出、inport与export、Hive查询、基本查询、where过滤、分组查询6.4Join语句6.4.1等值Join6.4.2表的别名6.4.3内连接6.4.4左外连接6.4.5右外连接6.4.6满外连接6.4.7多表连接6.4.8笛...原创 2019-08-27 21:45:43 · 695 阅读 · 0 评论 -
Hive第二天:Hive的创建表、管理表与外部表、分区表、修改表、删除表、Hive的DML数据操作、Hive数据导入导出、inport与export、Hive查询、基本查询、where过滤、分组查询
Hive的创建表、管理表与外部表、分区表、修改表、删除表、Hive的DML数据操作、Hive数据导入导出、inport与export、Hive查询、基本查询、where过滤、分组查询原创 2019-08-26 22:26:57 · 1877 阅读 · 4 评论 -
Hive第一天:Hive入门、优缺点、Hive架构原理、Hive下载安装、Hive元数据配置MySQL、Hive常用命令、Hive属性配置、Hive数据类型、DDL数据定义、Hive对数据库的增删改查
文章目录第1章Hive基本概念1.1什么是Hive.1.2Hive的优缺点.1.2.1优点1.2.2缺点1.3Hive 架构原理。1.4Hive 和数据库比较。1.4.1查询语言。1.4.2数据存储位置。1.4.3数据更新。1.4.4索引1.4.5执行。1.4.6执行延迟。1.4.7可扩展性。1.4.8数据规模。第2章Hive安装2.1Hive 安装地址。2.2...原创 2019-08-25 23:41:14 · 667 阅读 · 1 评论 -
分布式群起zookeeper脚本、群起HDFS与YARN脚本、查看集群jpsall脚本、shell群起脚本代码、Linux群起服务、群起集群后立即关闭安全模式
群起zookeeper脚本、群起HDFS与YARN脚本、查看集群jpsall脚本、shell群起脚本代码原创 2019-08-25 22:49:33 · 1255 阅读 · 5 评论 -
大数据之Zookeeper:zookeeper数据结构、zookeeper安装、zookeeper内部原理、分布式zookeeper部署、命令行、zookeeper的API、监听服务器动态上下线案例
文章目录第1章·Zookeeper概述。1.1.概述。1.2·特点1.3·数据结构。1.4·应用场景。1.5·下载地址第2章·Zookeeper安装。2.1·本地模式安装部署。2.2·配置参数解读。第3章·Zookeeper内部原理。3.1·选举机制3.2·节点类型。3.3.stat 结构体3.4·监听器原理。3.5·写数据流程第4章·Zookeeper实战。4....原创 2019-08-24 22:29:24 · 452 阅读 · 0 评论 -
MapReduce第五天:Hadoop企业优化、MapReduce优化方法、HDFS小文件优化、MapReduce倒序索引job串联、TopN案例、MapReduc找共同好友案例、Hadoop常见错误
Hadoop企业优化、MapReduce优化方法、HDFS小文件优化、MapReduce倒序索引job串联、TopN案例、MapReduc找共同好友案例、Hadoop常见错误原创 2019-08-23 23:00:40 · 457 阅读 · 0 评论 -
MapReduce第四天:Hadoop数据压缩、四种压缩方式、压缩参数、压缩案例、yarn资源调度器、yarn工作机制
接上篇第3章的3.10MapReduce第三天:MapTask、ReduceTask机制、OutputFormat数据输出、Join应用、MapReduce Join、计数器应用、数据清洗ETL、MapReduce开发总结本文目录第4章Hadoop数据压缩4.1概述4.2MR支持的压缩编码4.3压缩方式选择4.3.1Gzip压缩4.3.2Bzip2压缩4.3.3Lzo压缩4.3....原创 2019-08-22 19:33:24 · 443 阅读 · 0 评论 -
MapReduce第三天:MapTask、ReduceTask机制、OutputFormat数据输出、Join应用、MapReduce Join、计数器应用、数据清洗ETL、MapReduce开发总结
MapTask、ReduceTask机制、OutputFormat数据输出、Join应用、MapReduce Join、计数器应用、数据清洗ETL、MapReduce开发总结原创 2019-08-21 22:38:16 · 413 阅读 · 0 评论 -
MapReduce第二天:Hadoop序列化及Writable接口、InputFormat数据输入、自定义InputFormat、FileInputFormat切片
切片与MapTask并行度决定机制Job提交流程源码和切片源码详解FilelnputFormat切片机制Combine TextlnputFormat切片机制CombineTextlnputFormat案例实操FilelnputFormat实现类KeyValue TextlnputFormat使用案例NLinelnputFormat使用案例自定义InputFormat自定义InputFormat案例实操原创 2019-08-19 21:57:40 · 308 阅读 · 0 评论 -
MapReduce第一天:MapReduce入门、MapReduce优缺点、MapReduce数据序列化类型、MapReduce编程、WordCount案例
MapReduce入门、MapReduce优缺点、MapReduce数据序列化类型、MapReduce编程、WordCount案例原创 2019-08-18 21:25:13 · 400 阅读 · 0 评论 -
HDFS之高可用:HA工作机制、HDFS-HA手动故障转移、HDFS-HA自动故障转移、配置zookeeper集群、配置HA集群、YARN-HA集群配置、HDFS的Federation架构设计
HA工作机制、HDFS-HA手动故障转移、HDFS-HA自动故障转移、配置zookeeper集群、配置HA集群、YARN-HA集群配置、HDFS的Federation架构设计原创 2019-08-25 22:03:47 · 323 阅读 · 0 评论 -
HDFS(下):NameNode和SecondaryNameNode、HDFS工作机制、故障处理、集群安全模式、服役退役节点、集群黑白名单、DataNode多目录详解、HDFS2.x新特性
NameNode和SecondaryNameNode、HDFS工作机制、故障处理、集群安全模式、服役退役节点、集群黑白名单、DataNode多目录详解、HDFS2.x新特性原创 2019-08-18 22:01:10 · 584 阅读 · 0 评论 -
HDFS(上):HDFS优缺点、HDFS操作、HDFS客户端操作、HDFS的API、HDFS数据流、HDFS的IO流、HDFS读写数据流程、HDFS文件处理详解、windows安装hadoop
HDFS优缺点、HDFS操作、HDFS客户端操作、HDFS的API、HDFS数据流、HDFS的IO流、HDFS读写数据流程、HDFS文件处理详解、windows安装hadoop详解原创 2019-08-17 21:26:47 · 873 阅读 · 2 评论 -
Hadoop入门(下):伪分布式搭建、完全分布式搭建、SSH免密登录、集群分发脚本xsync、集群时间同步、HDFS运行MapReduce、Yarn、jpsall配置、hadoop编译源码、常见错误
**第4章·Hadoop运行模式。**4.1·本地运行模式4.1.1·官方Grep案例4.1.2·官方WordCount案例4.2·伪分布式运行模式4.2.1·启动HDFS并运行MapReduce程序4.2.2·启动YARN并运行MapReduce程序4.2.3·配置历史服务器。4.2.4.配置日志的聚集.4.2.5·配置文件说明==4.3·完全分布式运行模式(开发重点)==4.3.1:虚拟机准备4.3.2·编写集群分发脚本 xsxnce4.3.3·集群配置4.3.4·集群单原创 2019-08-16 18:38:47 · 1151 阅读 · 0 评论 -
Hadoop入门(上):大数据特点、大数据前景、大数据组织结构、Hadoop组成、Hadoop版本介绍、Hadoop运行环境搭建、CentOS6安装JDK、安装Hadoop、Hadoop目录结构
资料来源于尚硅谷本篇文章目录第1章·大数据概论1.1.大数据概念。1.2.大数据特点(4V)1.3.大数据应用场景1.4.大数据发展前景1.5·大数据部门业务流程分析。1.6·大数据部门组织结构(重点)。第2章·从Hadoop框架讨论大数据生态2.1Hadoop 是什么2.2Hadoop发展历史2.3Hadoop 三大发行版本。2.4Hadoop的优势(4高)。2...原创 2019-08-15 20:02:34 · 547 阅读 · 0 评论 -
大数据基础之Shell:Shell变量、shell运算符、shell条件判断、shell流程控制、read读取输入、shell函数、shell工具(cut、sed、awk、sort)、shell面试题
第1章 Shell概述shell是一个命令行解释器,它接收应用程序或者用户命令,然后调用操作系统内核执行命令。shell还是一个功能非常强大的脚本语言,易编写、易测试、灵活性强。第2章 Shell解析器(1)Linux提供的Shell解析器有:[zs@hadoop100 ~]$ cat /etc/shells /bin/sh/bin/bash/sbin/nologin/bin/...原创 2019-08-14 19:56:53 · 287 阅读 · 0 评论 -
大数据基础之JVM:栈与堆体系、堆参数调优、GC垃圾回收、GC四大算法
快速入门JVM面试常问JVM体系结构概述JVM是运行在操作系统之上的,它与硬件没有直接的交互类装载器ClassLoader负责加载class文件,class文件在文件开头有特定的文件标示,将class文件字节码内容加载到内存中,并将这些内容转换成方法区中的运行时数据结构并且ClassLoader只负责class文件的加载,至于它是否可以运行,则由Execution Engine决定...原创 2019-08-13 22:56:09 · 284 阅读 · 0 评论 -
大数据基础之JUC(下):Callable接口、Condition接口介绍、condition多线程生产消费任务
JUC重点梳理1 JUC1.1 培训 教育思维方式+认知+方法论1.2 是什么1.3 能干嘛1.4 去哪下1.5 怎么玩+永远的HelloWorldWWHjuc是什么:java.util.concurrent2 并发?并行?3 进程,线程3.1 QQ.exe WinWord.Exe 163Music.exe3.2 ...原创 2019-08-13 13:26:15 · 279 阅读 · 0 评论 -
大数据基础之JUC(上):JUC简介、concurrent类、JUC解决售票问题、Lambda表达式、JUC线程安全问题、JUC八锁演示及说明
JUC简介 售票案例 线程类问题解决套路 “线程-控制-资源类” 接口可以以内部匿名类的方式直接new,前提是必须是函数式接口 lambda表达式口诀 “复制小括号,写死右箭头,粘贴大括号” (复制的小括号是run方法的)()->{} wait和notify是object类的方法,不是Thread类的;线程Thread是lang包下面的,而Concurre...原创 2019-08-12 19:48:58 · 286 阅读 · 0 评论 -
大数据之Git与GitHub(下):GitHub与Git协同办公、安装GitHub、idea中操作GitHub、GitHub工作流、GitLab服务器搭建
GitHub简介是什么GitHub是一个Git项目托管网站,主要提供基于Git的版本托管服务网址https://github.com/注册账号的注意事项不要使用163的邮箱,有可能收不到验证邮件。较长时间不使用有可能被Github冻结账号。请登录其客服页面https://github.com/contact,填写账号恢复申请。GitHub实战增加远程地址git remote...原创 2019-08-11 20:27:58 · 326 阅读 · 0 评论 -
大数据之Git与GitHub(上):Git简介、Git安装、Git实操命令、理解工作区+暂存区+本地库、Git分支
为什么要学Git1、必点天赋2、必然趋势上半部分内容:1.Git简介及安装2.Git实战操练Git是目前世界上最先进的分布式版本控制系统。版本管理系统能干什么集中管理型版本管理经典的集中管理型(CVS、VSS、SVN)特点:实现了大部分开发中对版本管理的需求结构简单,上手容易。提问:1、版本管理的服务器一旦崩溃,硬盘损坏,代码如何恢复?2、程序员上传到服务器的代...原创 2019-08-11 13:12:44 · 277 阅读 · 0 评论 -
大数据之Redis(下):Redis的主从复制、Redis一主二仆模式、Redis哨兵、Redis故障恢复、Redis集群搭建、Redis集群的Jedis开发、Redis集群启动报错
Redis的主从复制、Redis一主二仆模式、Redis哨兵、Redis故障恢复、Redis集群搭建、Redis集群的Jedis开发、Redis集群启动报错原创 2019-08-09 16:51:10 · 662 阅读 · 0 评论 -
大数据之Redis(中):Redis事务、Multi、Exec、discard、Redis持久化、RDB持久化、AOF持久化
Redis事务、Multi、Exec、discard、持久化、RDB持久化、AOF持久化原创 2019-08-08 22:51:11 · 333 阅读 · 0 评论 -
大数据之Redis(上):NoSQL介绍、Redis数据库安装启动、Redis命令、Redis五大数据类型、Redis的Java客户端Jedis
NoSQL数据库简介、Redis的介绍及安装启动、Redis命令、Redis的五大数据类型、Redis的Java客户端Jedis原创 2019-08-08 22:21:57 · 316 阅读 · 0 评论 -
大数据之Linux(下):CentOS6常用命令大全、Linux软件包管理、RPM、YUM命令、修改网络Yum源、大数据Linux常用命令
CentOS6常用命令大全、Linux软件包管理、RPM、YUM命令、修改网络Yum源、大数据Linux常用命令原创 2019-08-07 18:44:29 · 712 阅读 · 0 评论 -
大数据之Linux(中):Linux文件目录、VI/VIM编辑器、超详细CentOS6.8网络配置、修改主机名与IP地址、关闭防火墙、克隆虚拟机、安装远程登录软件
Linux文件目录、VI/VM编辑器、超详细CentOS6.8网络配置、修改主机名与IP地址、关闭防火墙、克隆虚拟机、安装远程登录软件介绍原创 2019-08-06 22:37:18 · 855 阅读 · 2 评论 -
大数据之Linux(上):大数据入门Linux准备、超详细CentOS6.8从下载到安装、vmtolls安装与资源共享
从下载centos6和vmware到顺利安装Centos Linux,近100个步骤截图,超详细,值得大数据和Linux新手收藏!原创 2019-08-06 21:59:00 · 444 阅读 · 1 评论