2021暑假归档(20210615-20210815)
文章平均质量分 87
第一周_20210621-20210627
第二周_20210628-20210704
第三周_20210705-20210711
第四周_20210712-20210718
第六周_202100726-20210801
第七周_20210802-20210808
第八周_20210809-2021
菜菜的大数据开发之路
Java技术栈 AND 大数据开发,学习笔记, 拒绝水文
展开
-
三, Flume 进阶下-- Flume自定义拦截器, 自定义Sources, 自定义Sinks
三, Flume 进阶- 自定义拦截器, 自定义Sources, 自定义Sinks3.1 自定义Intercepter拦截器我们结合实际例子了解自定义拦截器和多路复用channel选择器的结合使用.[案例需求]使用Flume 采集服务器本地日志, 我们需要根据日志类型的不同, 将不同种类的日志发往不同的分析系统. 本案例中, 我们以端口数据模拟日志(netcat 发送数据), 以单个数字和单个字母来模拟不同类型的日志.我们需要使用定义intercepter 区分数字和字母, 然后使用多路复用ch原创 2021-10-04 14:35:26 · 568 阅读 · 0 评论 -
五, Flume常见组件类型的用法总结
文章目录零, 官方API一, Source(接收并处理数据)1.1 `exec` 类型的Soruce组件1.2 `netcat`类型的Source组件1.3 `spooldir`类型的Source组件1.4 `taildir`类型的Source组件1.4 `avro`类型的Source组件二, Channel2.1 `memory`类型的Channel组件2.2 `file`类型的Channel组件2.3 `kafka`类型的Channel组件三, Sink3.1 `logger`类型的sink组件3.2原创 2021-10-06 15:00:39 · 595 阅读 · 0 评论 -
八, Hive基础函数和窗口函数全解析
八, Hive相关的函数8.1 查看内置函数查看系统内置函数(hive> show functions;)显示内置函数用法(hive> desc function xx;)详细显示内置函数用法(hive> desc extended function xx;)8.2 常用系统内置函数1. 空字段赋值(NVL(列名, default_value))[函数说明]NVL: 给某一列值为NULL的数据复制, 如果某一列的数据为NULL, 则赋值为default_value, 不原创 2021-08-10 11:50:09 · 1628 阅读 · 0 评论 -
四, 通过Ganglia实现监控Flume数据流
一, 什么是Ganglia ?Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。二, Ganglia 的安装和部署对分布式集群的安装前规划主机要安装的内容bigdata01web客原创 2021-10-04 14:43:05 · 500 阅读 · 0 评论 -
二,Flume进阶上--Flume 事务和拓扑结构(串联, 复制和多路复用, 负载均衡或故障转移,聚合)
二, Flume 事务和拓扑结构2.1, Flume事务在Flume工作流程中, 主要有两大事务,分别是在数据接收端Source和数据缓冲区Channel之间的 Put事务(推送)Put事务:doPut: 将批数据写入临时缓冲区putList.doCommit: 检查channel内存队列是否足够合并.doRollback: 当channel内存队列空间不足(sink从channel拉取的数据量小于source放入channel的数据量), 会回滚数据.数据缓冲区Chan原创 2021-10-04 14:20:16 · 415 阅读 · 0 评论 -
三四, Hive数据类型和数据定义语言(DDL)
文章目录三, Hive数据类型和数据定义语言(DDL)1. 基本数据类型2. 集合数据类型2.1 案例实操1. 待创建表的格式2. 在hive中创建表, 并添加字段名和字段类型如下:3. 在文档中按照步骤2中各个字符之间的分隔符规定输入数据, 并上传到HDFS.4. 在Hive中查看这张表:5. 注意: 筛选查询数据的几个方法3. 类型转换四, DDL-数据库定义(会用即可)4.1 数据库管理4.1.0 创建数据库4.1.1 查询数据库4.1.2 查看数据库信息4.1.3 修改数据库4.1.4 删除数据库4原创 2021-08-02 14:56:17 · 708 阅读 · 0 评论 -
六七, Hive 数据查询实操, 以及Hive的分区和分桶
六, Hive 查询操作前置操作(准备数据+建表+导入数据)准备数据emp.txt 和 dept.txt建表emp和dept建立emp表, 对照字段[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JanzVMIN-1628242050249)(2021-08-04-20-38-29.png )]create table emp( empno int, ename string, job string, mgr i原创 2021-08-06 17:29:58 · 2313 阅读 · 0 评论 -
五, Hive-数据的导入和导出
五, Hive-数据的导入和导出5.1 数据导入法1, 向表中装载数据(load)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oP6YViMW-1627981666146)(2021-08-03-14-33-12.png)][案例实操]创建表[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W8nNN6Hh-1627981666150)(2021-08-03-14-44-50.png)]加载本地文件到此表中[外链图片转存失败,源原创 2021-08-03 17:08:50 · 282 阅读 · 0 评论 -
1. tag-<数组>-lt.1-两数之和Java, Python实现
梦开始的地方: 1001 two sums案例需求Category Difficulty Likes Dislikesalgorithms Easy (51.69%) 11714 -给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。示例 1:输入:nums = [2,7,11,15.原创 2021-08-02 18:37:06 · 216 阅读 · 1 评论 -
一, Zookeeper 简单入门和本地安装
一, Zookeeper入门1.1 概述Zookeeper 是一个开源的,分布式的, 为分布式框架提供协调服务的Apache项目.它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。因为使用分布式系统就无法避免对节点管理的问题(需要实时感知节点的状态、对节点进行统一管理等等),而由于这些问题处理起来可能相对麻烦和提高了系统的复杂性,ZooKeeper作为一个能够通用解决这些问题的中间件就应运而生了。[Zookeeper工作机制]Zookeeper=文件系统+通原创 2021-07-27 11:40:59 · 242 阅读 · 0 评论 -
三, 利用Zookeeper实现 服务器动态上下线
三, 利用Zookeeper实现 服务器动态上下线3.1 需求在某分布式系统中, 主节点可以有多台, 可以动态上下线, 任意一台客户端都能实时感知到主节点服务器的上下线.3.2 需求分析3.3 具体实现先在集群上创建/servers 节点[zk: localhost:2181(CONNECTED) 0] create /servers "servers"Created /serversIDEA中创建包名cn.qsc.zkcase1新建java类, DistributeS原创 2021-07-29 11:18:00 · 487 阅读 · 0 评论 -
一二, Hive 概述,安装及其基本使用
一, Hive概述1. 什么是Hive[概念]Hive: 由FaceBookc开源用于解决海量结构化日志的数据统计工具.Hive是基于Hadoop的一个数据仓库工具, 可以将结构化的数据文件映射为一张表, 并提供类SQL(Hive SQL)查询功能.Hive处理的数据存储在HDFS.Hive的本质是将SQL语句转换为MapReduce任务运行, 使得不熟悉MapReduce的用户也能很方便利用HQL 处理和计算HDFS上的结构化数据,适用于离线的批量数据计算.[本质]Hive 依赖于原创 2021-08-01 19:54:40 · 515 阅读 · 0 评论 -
二, 对Zookeeper集群的 命令行操作, API操作 以及 Zookeeper选举机制
文章目录三, Zookeeper集群操作3.1 集群操作3.1.1 Zookeeper在集群上的安装步骤1. 集群内单主机安装步骤2. 配置服务器编号步骤3. 配置zoo.cfg步骤4. 集群操作Zookeeper 启/停/状态脚本3.1.2 ZooKeeper选举机制选举机制一, 初次启动时选举机制二, 非初次启动时(待理解)3.2 客户端 命令行 操作3.2.1 命令行语法3.2.2 znode 节点数据信息1. 查看当前znode节点所包含的内容2. 查看当前znode节点的详细数据3.2.3 zno原创 2021-07-28 16:44:19 · 422 阅读 · 0 评论 -
四, Zookeeper分布式锁机制及其Java API 原生实现, Curator框架实现
四, Zookeeper 分布式锁机制和代码实现4.1 Zookeeper 分布式锁机制分布式锁主要用于在分布式环境中保护跨进程、跨主机、跨网络的共享资源实现互斥访问,以达到保证数据的一致性。[为什么Zookeeper可以实现分布式锁?][分布式锁实现原理]对实现过程的解读:zookeeper会在它的集群内维护一个永久根节点, 我们可以命名为/locks, 这个根节点的每个子节点维护着每台客户端向zookeeper申请的锁;代表这个锁的节点,是一个临时节点并且带有序号, 客户端原创 2021-07-30 16:21:15 · 168 阅读 · 0 评论 -
三-下-0, MapReduce Join 浅析及案例实操
三-下-0, MapReduce Join 浅析及案例实操MapReduce能执行大型数据集间的"连接"(join)操作.连接操作的具体实现技术取决于数据集的规模及区分方式.如果一个数据集很大(例如天气记录), 而另外一个集合很小(例如气象站元数据), 小到以至于可以分发到集群中的每一个节点之中.则可以执行一个MapReduce作业,将各个气象站的天气记录放到一块(例如, 根据气象站ID执行部分排序), 从而实现连接. Mapper或Reducer根据各气象站ID从较小的数据集合中找到气象站元数据,使原创 2021-07-20 21:24:30 · 442 阅读 · 1 评论 -
三-下-1, 数据清洗(ETL)和计数器浅析及案例实操
三, 数据清洗(ETL)和计数器 浅析 及案例实操ETL“ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库在运行核心业务 MapReduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行 Mapper 程序,不需要运行 Reduce 程序。计数器3.1 数据原创 2021-07-21 10:36:18 · 445 阅读 · 0 评论 -
三-上, 大数据基础架构Hadoop- Mapreduce概述以及经典WordCount案例实操 hf
一, MapReduce概述1.1 MapReduce定义MapReduce是一个分布式程序的编程框架, 使用户开发"基于Hadoop的数据分析应用"的核心框架.MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完成的分布式运算程序, 并发运行在Hadoop集群上.1.2 MapReduce优缺点优点缺点易于编程(只需实现一些接口, 就能完成分布式程序)不擅长实时性计算(做不到秒回计算结果)良好的扩展性(简单的增加机器来提升算力)不擅长原创 2021-07-05 16:55:22 · 407 阅读 · 2 评论 -
三-中下-0, MapReduce - Job提交和切片流程源码详解
3.1.2 Job提交流程源码和切片源码详解3.1.2.1 Job提交流程源码详解1. waitForCompletion()我们从Driver类, job.waitForCompletion处打断点进入方法内. public boolean waitForCompletion(boolean verbose) throws IOException, InterruptedException, ClassNotFoundException { ////判断状态是否为`DEFI原创 2021-07-11 21:02:57 · 650 阅读 · 2 评论 -
三-中上, 大数据基础架构Hadoop- Hadoop序列化概述和案例实操 hf
文章目录二, Hadoop序列化2.1 序列化概述2.2 自定义bean对象实现序列化接口(Writable)2.3 序列化案例实操二, Hadoop序列化2.1 序列化概述[什么是序列化 ?]序列化 就是把内存中的对象, 转换为字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络存储.反序列化 就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据, 转换为内存中的对象.简而言之就是, 序列化是把对象转化为可传输的字节序列, 反序列化是把可传输的字节序列转化为原创 2021-07-08 08:08:02 · 367 阅读 · 1 评论 -
一, Hadoop基础架构初步认识 2
一, Hadoop基础架构初步认识文章目录一, Hadoop基础架构初步认识1.1 Hadoop的四高特点1.2 Hadoop 1.x, 2.x, 3.x的发展1.3 HDFS架构概述-(海量数据的存储)1.3.1 HDFS组成1.4 Yarn架构概述1.4.1 Yarn组成1.5 MapReduce架构概述(海量数据的计算)1.6 HDFS, Yarn, MapReduce三者之间的关系1.7 大数据的技术生态体系问题1:Q: 为什么不能用配有大量硬盘的数据库做大规模数据分析? 我们为什么需原创 2021-06-28 11:44:40 · 185 阅读 · 0 评论 -
二-0, 大数据基础架构Haoop- 在Windows客户机上对HDFS的API操作
一, API操作前的准备工作〇, 目的实现在Windows环境下, 从客户端机器远程操作集群.具体的步骤:配置客户端机器的环境变量配置maven相关的环境变量使用IDE, 新建maven工程在pom文件中增加相应的依赖reload maven工程, 下载依赖1. 1 客户端环境变量的配置下载windows环境下的hadoop依赖文件, 解压到自定义目录下(非中文目录, 这里使用C:\hadoop_dependency\hadoop-3.1.0), 然后在系统变量中添加新的原创 2021-06-30 16:17:53 · 367 阅读 · 1 评论 -
二, 大数据基础架构Hadoop-HDFS入门和基本操作(基本组成, Shell操作, API操作, 读写流程) hf
一, HDFS概述1.1 HDFS的产生背景和定义随着数据量越来越大,我们需要把文件分布存储到多台计算机上,分布式文件管理系统作为一种管理多台机器上文件的系统应运而生, HDFS是其中的一种.HDFS定义:Hadoop Distributed File System,通过目录树来定位文件分布式的. 很多服务器联合起来实现功能,集群中的服务器有各自的角色.使用场景: 适合一次写入,多次读取的场景. 一个文件经过创建,写入和关闭后就不需要改变1.2, HDFS的优缺点:优点:原创 2021-06-28 16:05:28 · 1048 阅读 · 2 评论 -
idea项目中java文件没有run选项 和 java文件左上角出现灰色叉号的解决办法
java文件没有run选项 或者是 java文件名左下角有个橘色转向箭头解决办法:file–> projectStrcture–>Modules–>把这个项目添加到Modules中去, 并把src作为源码文件目录(sources)更详细的说明: 参考这篇文章java文件左上角出现灰色叉号产生原因: 标识这个类不会在工程编译的时候进行编译解决办法:ctrl+alt+s打开Settings设置查找excludes,(或File->Settings-&.转载 2021-06-30 14:56:42 · 2868 阅读 · 1 评论 -
大数据集群节点之间的文件或配置同步方法(集群分发脚本) 1
一, scp(secure copy- 安全拷贝)命令1.1 scp 入门[scp的定义]scp可以实现服务器与服务器之间的数据拷贝.[scp语法] scp -r $pdir/$filename $user@$host:$pdir/$filename #递归(传输的是目录) # 要拷贝的文件路径/名称 #拷贝目的地 用户名@主机名: 目的地路径/目录名1.2 scp案例实操在bi原创 2021-06-22 11:58:58 · 1926 阅读 · 0 评论 -
Linux-使用 /etc/profile.d/ 去配置JDK, Hadoop, Hbase等软件的环境变量 1
/etc/profile.d 目录中的脚本文件在/etc/profile.d 目录中存放的是一些应用程序所需的启动脚本,其中包括了颜色、语言、less、vim及which等命令的一些附加设置。这些脚本文件之所以能够 被自动执行,是因为在/etc/profile 中使用一个for循环语句来调用这些脚本。这些脚本文件是用来设置一些变量和运行一些初始化过程的。在 /etc/profile 这个文件中有这么一段 shell, 会在每次启动时自动加载 profile.d 下的每个.sh脚本文件/etc/原创 2021-06-21 16:33:32 · 2469 阅读 · 0 评论