DayDayUp-Panda-CSDN博客

原创 Sqoop

一、概述Sqoop是一款开源的数据导入导出工具，可以将传统的关系型数据库导出至HDFS，也可以将HDFS中的数据导出至关系型数据库。官网： http://sqoop.apache.org/原理：在Hadoop生态体系中，计算基本依赖于MR，那么Sqoop也是如此，Sqoop就是将Sqoop语句翻译成MR程序，来实现一个数据导入和导出的操作。那就不难理解到Sqoop就是一个对于InpuFormat和OutputFormat进行特殊定制的MR程序。二、Sqoop安装2.1 下载官方下载地址：htt

2022-02-12 13:37:30 371

原创 2021-07-28

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2022-02-12 13:36:44 272

原创大数据-dbvis

文章目录1.dbvis下载地址：链接：https://pan.baidu.com/s/1WC1UHUWxvhD_q2GSYOG4uA提取码：5rov2.下载后安装dbvis3.将hive的目录放在已安装好的dbvis的jdbc的目录下。4.hive-site.xml中增加属性 <property> <name>hive.server2.thrift.port</name>

2022-01-18 10:17:08 404

原创 Flink05的状态管理

文章目录6.9 Flink 的状态管理6.9.1 State-Keyed State6.9.2 State-Operator State6.10 Flink - End-to-End Exactly-Once 语义6.10.1 Kafka 来实现End-to-End Exactly-Once 语义7、flink-SQL 开发7.1 背景7.2 Flink SQL 常用算子7.2.1 SELECT7.2.2 WHERE7.2.3 DISTINCT7.2.4 GROUP BY7.2.5 UNION 和UNION

2022-01-12 10:38:16 909

原创 Flink04

文章目录6.8 Flink 的容错6.8.1 Checkpoint 介绍6.8.2 持久化存储6.8.2.1 MemStateBackend（默认）6.8.2.2 FsStateBackend（建议使用）6.8.2.3 RocksDBStateBackend6.8.2.4 语法6.8.2.5 修改State Backend 的两种方式6.8.3 Checkpoint 的高级选项6.8.4 Flink 的重启策略6.8.4.1 概览6.8.4.2 固定延迟重启策略(Fixed Delay Restart St

2022-01-12 10:14:11 167

原创 Flink03

文章目录6、DataStream API 开发6.1 入门案例6.1.1 Flink 流处理程序的一般流程6.1.2 示例6.1.3 步骤6.1.4 参考代码6.2 输入数据集Data Sources6.2.1 Flink 在流处理上常见的Source6.2.2 基于集合的source6.2.3 基于文件的source（File-based-source）6.2.4 基于网络套接字的source（Socket-based-source）6.2.5 自定义的source（Custom-source）6.2.6

2022-01-12 10:12:32 277

原创 Flink02

文章目录5.3 DateSet 的Transformation5.3.1 map 函数5.3.2 flatMap 函数5.3.3 mapPartition 函数5.3.4 filter 函数5.3.5 reduce 函数5.3.6 reduceGroup5.3.7 Aggregate5.3.8 minBy 和maxBy5.3.9 distinct 去重5.3.10 Join5.3.11 Union5.3.12 Rebalance5.3.13 分区5.3.13.1 partitionByHash5.3.13.

2022-01-12 09:29:56 247

原创大数据-Scala

文章目录1.前言为什么要学习Scala学前寄语Scala简介Scala的诞生函数式编程Scala和java的关系Scala的特点Scala环境搭建SDK下载安装及测试2.IDEA插件安装3.第一个Scala工程4.Scala基础语法注释代码分隔变量和常量定义标识符关键字保留字方法和操作符5.Scala数据类型AnyVal值类型的转换自动类型转换强制类型转换值类型和String类型之间的相互转换6、运算符算数运算符赋值运算符关系运算符逻辑运算符位运算符7、流程控制顺序结构分支结构循环结构for循环while循

2022-01-12 09:22:00 1203

原创 Flink01

文章目录1、Flink 简介1.1 Flink 的引入测试环境：Flink 和spark 的差异1.2 什么是Flink1.3 Flink 流处理特性1.4 Flink 基石1.5 批处理与流处理2、Flink 架构体系2.1 Flink 中的重要角⾊JobManager 处理器：TaskManager 处理器：2.2 无界数据流与有界数据流无界数据流：有界数据流：2.3 Flink 数据流编程模型2.4 Libraries 支持3、Flink 集群搭建3.1 standalone 集群环境3.1.1 准备

2022-01-12 09:13:46 569

原创大数据-Scala补充

文章目录集合计算基础函数集合计算的高阶函数隐式转换1.隐式值与隐式参数2.隐式转换函数3.隐式类（了解）WordCount集合计算基础函数（1）求和（2）求乘积（3）最大值（4）最小值（5）排序package cn.tedu.scalacollection/** * 集合计算基本函数 */object CollectionSimpleFunctionTest { def main(args: Array[String]): Unit = { val list = List

2022-01-11 19:40:49 121

原创大数据-Kafka

文章目录1、消息队列的介绍2、常用的消息队列介绍1、RabbitMQ2、ActiveMQ3、RocketMQ4、Kafka5、各种常用消息队列对比3、消息队列的应用场景4、kafka的基本介绍1、kafka的基本介绍2、kafka的好处3、分布式的发布与订阅系统4、kafka的主要应用场景指标分析日志聚合解决方法流式处理5、kafka架构内部细节剖析6、kafka主要组件说明1、kafka当中的producer说明2、kafka当中的topic说明3、kafka当中的partition说明4、kafka当中

2022-01-11 19:39:26 295

原创大数据-Hbase

文章目录1、HBase基本介绍HBase的发展历程2、HBase与Hadoop的关系2.1、HDFS2.2、HBase3、HBase特征简要1）海量存储2）列式存储3）极易扩展4）高并发5）稀疏4、HBase的基础架构1、HMaster2、RegionServer5、HBase的集群环境搭建5.1、下载对应的HBase的安装包5.2、压缩包上传并解压5.3、修改配置文件修改第一个配置文件hbase-env.sh修改第二个配置文件hbase-site.xml修改第三个配置文件regionservers创建ba

2022-01-11 19:38:12 1074

原创大数据-zookeeper

文章目录1.Zookeeper1.1、zookeeper介绍1.2、zookeeper的架构图Leader:Follower:Observer:1.3、zookeeper的特性1.4、Zookeeper 集群搭建第一步：下载zookeeeper的压缩包，下载网址如下第二步：解压第三步：修改配置文件第四步：添加myid配置第五步：安装包分发并修改myid的值第六步：三台机器启动zookeeper服务1.5、zookeeper的shell操作1.5.1、客户端连接1.5.2、shell操作创建节点读取节点更新节

2022-01-11 19:37:10 255

原创大数据-离线数据处理

文章目录Hive离线分析回顾业务流程准备搭建环境1.启动Hadoop2.修改flume配置文件3.启动flume4.启动jt-logserver5.测试准备数据离线数据处理Hive管理数据数据清洗数据处理PV：访问量UV：独立访客数SV：独立会话数BR：跳出率NewIP：新增IP数NewCust：新增访客数AvgTime：平均访问时长AvgDeep：平均访问深度分析结果表通过sqoop将数据导入mysql概念下载安装使用Echarts学习使用Hive离线分析回顾业务流程[外链图片转存失败,源站可能有防

2022-01-11 19:35:56 3151

原创大数据-日志接收处理

文章目录网站日志分析系统1.数据收集：JS埋点2.日志数据的提交方式3.在哪里发起Get请求？4.系统架构设计5. 运行jt-logserver5.1 Idea中打开项目5.2 查看tomcat插件配置5.3 启动5.4 测试5.5 关闭5.6 访问网页产生日志6.指标说明7.项目的整合网站日志分析系统1.数据收集：JS埋点传统埋点方式的缺点：直接嵌入业务系统，代码不好维护，影响业务系统性能。JS埋点优点：日志收集系统与业务系统相互独立，互不影响，不占用业务系统性

2022-01-11 19:33:20 1494

原创大数据-Apache Flume

文章目录Apache Flume1．概述2．运行机制1.1．简单结构1.2．复杂结构4. Flume安装部署5.flume初体验练习案例Source练习1.avro2.Spooldir3.采集目录到HDFS4.采集文件到HDFS开发shell脚本定时追加文件内容5.TailDir的使用集群部署案例练习多级扇入(fan-in)扇出(fanout)Apache Flume1．概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。Flume的核心是把

2022-01-11 19:32:05 477

原创大数据-Hive

文章目录1.Hive简介1.1什么是Hive1.2为什么使用Hive1.3Hive的特点1.4Hive架构图1.5Hive与Hadoop的关系1.6Hive与传统数据库对比2.HIVE的安装部署1.derby版hive直接使用1、解压hive2.修改目录名称3.初始化元数据库4.启动5.创建数据库6.创建表7.插入数据8.可能遇到的问题9.Hive启动报错Safe mode2.基于mysql管理元数据版hive1、解压hive2.修改目录名称3.检测服务器mysql数据库4.配置mysql允许外网访问5.退

2022-01-11 19:30:43 346

原创 JAVA大数据(二) Hadoop 分布式文件系统HDFS 架构，MapReduce介绍，Yarn资源调度

文章目录1.分布式文件系统HDFS1.HDFS的来源2.HDFS的架构图之基础架构2.1 master/slave 架构2.2 名字空间（NameSpace）2.3 文件操作2.4副本机制2.5心跳机制2.6 一次写入，多次读出3.NameNode与Datanode的总结概述3.1namenode 元数据管理3.2 Datanode 数据存储4.文件副本机制以及block块存储5.元文件FSImage与edits6、HDFS的文件写入过程7、HDFS的文件读取过程8.HDFS基本Shell操作9.HDFS的

2022-01-11 19:19:50 521

原创 JAVA大数据(一)简介-Hadoop环境配置，伪分布式模式架构学习用

1.课前资料2.课程整体介绍[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mH0U4e1A-1641888708908)(day01_hadoop.assets/1628589606864.png)]3.大数据介绍什么是大数据？简单来说大数据就是海量数据及其处理。大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产（资源）。

2022-01-11 16:14:38 756

转载 CGB2108(三)Day08

文章目录1. VUE.JS案例复习1.1 入门案例1.2 点击事件用法1.3 双向数据绑定1.3.1 页面案例测试1.3.2 双向数据绑定的原理1. VUE.JS案例复习1.1 入门案例<!DOCTYPE html><html> <head> <meta charset="utf-8"> <title>入门案例</title> </head> <body> <div id="app

2021-11-14 14:21:19 165

转载 CGB2108（三）Day07

文章目录1. VUE.JS案例复习1.1 入门案例1.2 点击事件用法1.3 双向数据绑定1.3.1 页面案例测试1.3.2 双向数据绑定的原理1.4 分支结构用法1.5 循环遍历结构1.6 VUE生命周期函数1.6.1 图例1.6.2 生命周期函数分类1.6.3 初始化时知识点1.6.4 生命周期函数用法2 远程调用2.1 什么是跨域2.2 跨域访问测试案例2.3 远程入门案例测试2.3.1 编辑页面JS2.3.2 前后端调用结果2.4 带参数GET请求2.4.1 编辑页面JS2.4.2 页面效果展现2.

2021-11-10 20:37:04 166

转载 CGB2108(三)Day05/Day06

文章目录1. Mybatis 关联查询1.1 创建新项目1.1.1 选择项目1.1.2 编辑POM.xml文件1.1.3 复制配置文件1.2 创建表1.2.1 创建员工表1.2.2 创建部门表1.2.3 创建POJO对象1.2.3.1 编辑Emp POJO1.2.3.2 编辑Dept POJO1.2.3.3 项目代码结构1.3 常见表关系1.4 Mybatis 一对一封装1.4.1 业务说明1.4.2 测试类准备1.4.3 编辑Mapper接口/xml映射文件1.4.4 一对一标签1.5 一对多1.5.1

2021-11-02 09:34:08 185

转载 CGB2108(三)Day04

文章目录1. Mybatis中集合操作1.1 业务说明1.1 array集合操作1.1.1 编辑测试代码1.1.2 编辑Mapper接口1.1.3 编辑Mapper.xml映射文件1.2 List集合操作1.2.1 编辑测试代码1.2.2 编辑接口方法1.2.3 编辑Mapper映射文件1.3 Map集合操作1.3.1 编辑测试类1.3.2 编辑Mapper接口1.3.3 编辑Mapper xml映射文件2. 动态Sql2.1 动态 sql-where-if2.1.1 业务需求2.1.2 编辑测试方法2.1

2021-10-30 09:11:24 176

转载 CGB2108(三)Day03

文章目录1. Mybatis案例学习1.1 简化测试操作2. Mybatis CURD操作2.1 根据ID查询数据2.1.1 需求说明2.1.2 编辑接口方法2.1.3 编辑UserMapper.xml 映射文件2.1.4 编辑单元测试方法2.2 用户新增测试2.2.1 编辑UserMapper接口2.2.2 编辑UserMapper.xml2.2.3 编辑测试代码2.3 用户修改2.3.1 编辑测试API2.3.2 编辑UserMapper 接口2.3.3 编辑UserMapper 映射文件2.4 用户删

2021-10-28 20:23:34 179

转载 CGB2108(三)Day02

文章目录1. Spring高级用法1.1 Lombok用法1.1.1 添加依赖1.1.2 安装插件1.1.3 POJO常用注解1.2 Spring容器管理对象用法1.2.1 @Component注解说明1.2.2 @Bean注解1.2.3 对象测试1.2.4 测试效果展现1.3 @SpringBootTest1.3.1 问题分析1.3.2 @SpringBootTest1.3.2 @SpringBootTest 用法2. 导入jt数据库2.1 连接本地数据库2.2 导入数据库文件3 Mybatis3.1 J

2021-10-28 20:02:46 147

转载 CGB2108(二)Day01

CGB2108(二)Day01文章目录CGB2108(二)Day01一,数据库--1,概述--2,安装--3,数据库结构二,SQL语言--1,概述--2,数据库的操作1,查询所有数据库2,创建数据库(不能同名)3,删除数据库--3,表的操作1,查询所有表2,创建表3,修改表4,删除表5,练习4,记录--1,查询所有记录--2,向表中插入记录--3,修改记录--4,删除记录三,作业--1,创建表并插入数据一,数据库–1,概述数据库database简称db , 就是用来存储数据和管理数据的仓库 .分

2021-10-26 21:00:20 159

转载 CGB2108(三)Day01

1.知识小结1.1 Mysql版本说明：最好不要使用mysql8.0 建议使用mariadb 10以上下载地址： https://mariadb.org/download/?rel=10.6.4&prod=mariadb&os=windows&cpu=x86_64&pkg=msi&mirror=ossplanet基本功能 CRUD操作。连接方式：左连接，右连接，内连接1.2 JDBC功能和作用： java中操作数据库中最为直接的方式。表述： JDB

2021-10-26 19:40:34 284

m0_58818478的博客