自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 单机物理机部署Datax

为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。上传文件、解压缩、启动。

2024-01-13 17:48:36 490

原创 物理机本地和集群部署Spark

1)官网地址:http://spark.apache.org/2)文档查看地址:https://spark.apache.org/docs/3.1.3/3)下载地址:注意:sc是SparkCore程序的入口;spark是SparkSQL程序入口;master = local[*]表示本地模式运行。说明:本地模式下,默认的调度器为FIFO。

2024-01-13 17:13:29 557

原创 物理机部署三节点Kafka集群

一、部署Kafka集群官方下载地址:http://kafka.apache.org/downloads.html上传安装包到102的/opt/software目录下解压安装包到/opt/module/目录下,修改解压包名为kafka修改config目录下的配置文件server.properties内容#broker的全局唯一编号,不能重复,只能是数字。broker.id=102#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的线程数量num.i

2024-01-09 10:03:44 591

原创 物理机搭建单节点Flume

一 、安装flumeFlume官网地址:http://flume.apache.org/文档查看地址:http://flume.apache.org/FlumeUserGuide.html下载地址:http://archive.apache.org/dist/flume/安装将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下将lib文件

2024-01-09 10:01:59 403

原创 物理机搭建hive

配置Metastore到MySql,在/opt/module/hive/conf目录下新建hive-site.xml文件(新建的配置文件中的配置会覆盖默认配置)将MySQL安装包上传到/opt/software目录下,解压MySQL安装包资源到/opt/software 下新创建的mysqljars目录。注意:在配置了此参数后,启动hive之前必须先启动元数据服务,否则,hive启动后无法连接到元数据服务。初始化完成后,查看临时生成的root用户的密码,也是首次登录msql的密码;

2024-01-08 18:06:21 688

原创 Hadoop-HA高可用

在opt目录下创建一个ha文件夹,将/opt/module/下的 hadoop-3.1.3拷贝到/opt/ha目录下(记得删除data 和 log目录)配置core-site.xml。

2024-01-08 14:03:26 641

原创 Zookeeper三节点搭建

在/opt/module/zookeeper-3.5.7/这个目录下创建zkData,在/opt/module/zookeeper-3.5.7/zkData目录下创建一个myid的文件,在文件中添加与server对应的编号(注意:上下不要有空行,左右不要有空格)集群模式下配置一个文件myid,这个文件在dataDir目录下,这个文件里面有一个数据就是A的值,Zookeeper启动时读取此文件,拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。配置zoo.cfg文件。

2024-01-06 23:40:51 832

原创 Hadoop集群三节点搭建(二)

以master为样板机克隆三台出来,克隆前先把master关机按照上面的步骤克隆其他两个就可以了,

2024-01-06 20:08:04 634

原创 Hadoop集群三节点搭建(一)

能看到以上结果,则代表Java安装成功。注意:如果Hadoop命令不能用启虚拟机。

2024-01-04 20:44:30 619

原创 VM安装虚拟机及初始化操作

对安装好的VMware进行网络配置,方便虚拟机连接网络,本次设置建议选择NAT模式,需要宿主机的Windows和虚拟机的Linux能够进行网络连接,同时虚拟机的Linux可以通过宿主机的Windows进入互联网。7.保证Linux系统ifcfg-ens33文件中IP地址、虚拟网络编辑器地址和Windows系统VM8网络IP地址相同。按如上格式修改IP信息(地址,网关,DNS服务器),修改完毕后全部点击确定退出。许可证:ZC10K-8EF57-084QZ-VXYXE-ZF2XF。到此等待系统重启~~~~

2024-01-04 19:10:49 2785 1

原创 Scala 简介一

scala是完全面向对象的语言,所以无法使用break,continue关键字这样的方式来中断,或继续循环逻辑,而是采用了函数式编程的方式代替了循环语法中的break和continue。将问题分解成一个一个的步骤,将每个步骤进行封装(函数),通过调用这些封装好的功能按照指定的步骤,解决问题。//如果布尔表达式1为true,则执行该语句块。//如果布尔表达式2为true,则执行该语句块。//如果布尔表达式为true则执行该语句块。//上面条件都不满足的场合,则执行该语句块。...

2022-07-26 17:10:13 2172

原创 hive优化

hive 优化

2022-07-17 19:49:04 284

原创 hive自定义函数

hive udf

2022-07-16 21:57:30 552

原创 hive常用的函数

1.查看系统自带的函数2.显示自带的函数的用法descfunction函数名;3.详细显示自带的函数的用法descfunctionextended函数名。

2022-07-15 23:51:29 1527

原创 Hive基本使用(5)

a.在有些情况下,我们需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作,distributeby子句可以做这件事。在很多情况下,并不需要全局排序,此时可以使用sortby。添加分区语法经常用到(altertable表名addpartition(分区字段=‘分区字段值’))b.distributeby类似MR中partition(自定义分区),进行分区,结合sortby使用。c.在客户端设置(非配置文件等)的时效性是本次session,会话断开,需要在设置。......

2022-07-14 21:45:52 889

原创 Hive基本使用(4)

Hive基本使用(4)

2022-07-05 00:06:38 143

原创 Hive基本使用(3)

Hive基本使用(3)

2022-07-04 23:35:30 324 2

原创 Hive基本使用(2)

hive dml

2022-06-19 23:16:32 3182

原创 Hive基本使用(1)

hive ddl

2022-06-19 18:12:17 1318

原创 Shell脚本

获取当前服务器时间

2022-06-19 08:15:24 220

原创 CentoOS7 安装Hive

环境搭建

2022-06-04 11:17:30 1177

原创 Git的使用

一、使用git的好处a.项目未使用版本控制工具之前纯在的问题:1.项目的安全性太低2.项目的版本比较混乱3.项目的无端报错4.项目没办法做到协同开发b.什么是git:Git是分布式版本控制及协同开发工具c.版本控制工具的分类:1.集中式版本控制工具 cvs svn2.分布式的版本控制工具 git二、git的下载和安装a.官网:从 http://msysgit.github.io/ 下载,然后按默认选项安装即可。b.安装:1.傻瓜式安装,一路下一步安装完成后,在开始菜单里找

2020-06-29 21:27:37 169

原创 nodejs基本模块(三)

http模块首先我们先简单了解一下http协议,在web应用中服务器把页面传递给浏览器,其实是把HTML代码传递给

2020-06-26 16:30:24 159

原创 vscode集成git

1.git本地安装官网下载地址安装完成后,在开始菜单里找到“Git”->“Git Bash”,蹦出一个类似命令行窗口的东西,就说明 Git 安装成功!如图:命令行输入:$ git config --global user.name "Your Name"$ git config --global user.email "email@example.com"注意 git config 命令的 --global 参数,用了这个参数,表示你这台机器上所有的 Git 仓库都会使用这个配置

2020-06-26 16:15:54 2256

原创 Git的使用

问题:fatal: HttpRequestException encountered. An error occurred while sending the request. Username for ‘https://github.com’: remote: Repository not found. fatal: Authentication failed for ‘https://github.com/duanyihu/nodejsworkspace.git/’原因:Github 禁用了T

2020-06-21 21:00:59 221

原创 nodejs基本模块(二)

stream1.含义:是nodejs提供在服务端可用的模块,目前支持流这样的额数据结构。流数据结构的特点:有序、依次读入或者一次写入、不能像Array随机定位。也叫标准输入流(stdin)。2.在Node.js中,流也是一个对象,我们只需要响应流的事件就可以了:data事件表示流的数据已经可以读取了,end事件表示这个流已经到末尾了,没有数据可以读取了,error事件表示出错了。如下:...

2020-06-14 23:17:16 160

原创 nodejs基本模块(一)

一、基础定义Node.js是运行在服务区端的JavaScript环境,服务器程序和浏览器程序对比,没有浏览器的安全限制,服务程序必须接收网络请求,读写文件,处理二进制内容。nodejs模块实现了基本的服务器功能,这些模块在浏览器是没法执行的,底层是使用了c/c++在Node.js运行环境中实现的。二、模块分类global:js中有且仅有一个全局对象,在浏览器中是window。在node.js中的全局对象则是global,这个对象的属性和方法也和浏览器环境中的window不同。我们从黑窗口进入可以看到

2020-06-09 22:46:44 316

原创 Nodejs模块内容和npm的使用

一、模块的含义为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,很多编程语言都采用这种组织代码的方式。在Node环境中,一个.js文件就称之为一个模块(module)。好处:a、提高了代码的可维护性。b、编写代码不必从零开始。当一个模块编写完毕,就可以被其他地方引用。我们在编写程序的时候,也经常引用其他模块,包括Node内置的模块和来自第三方的模块。c、还可以有效避免函数名和变量名的冲突...

2020-06-07 16:31:00 200

原创 Nodejs开发环境搭建

Visual Studio Code(window系统下)我们已经在上篇文章已经介绍过了,安装的流程。安装好之后会出现如下图标:再打开前在本地创建一个vs code 的工作空间,双击打开:vs code引入文件:这样就引入了文件。接下来就是运行文件:配置之后会出现一个launch.json文件:然后:点击run就可以运行了。好啦入门就完成喽。...

2020-05-30 23:30:39 152

原创 node.js安装

一、简介JavaScript是单线程执行,根本不能进行同步IO操作,所以,JavaScript的这一“缺陷”导致了它只能使用异步IO。Node上运行的JavaScript相比其他后端开发语言优势是借助JavaScript天生的事件驱动机制加V8高性能引擎,使编写高性能Web服务轻而易举。其次JavaScript语言本身是完善的函数式语言,在前端开发时,开发人员往往写得比较随意,让人感觉JavaScript就是个“玩具语言”。但是,在Node环境下,通过模块化的JavaScript代码,加上函数式编程,并

2020-05-30 22:40:37 194

原创 javaweb-JDBC_3

一、JDBC工具类package com.bai.util;import java.io.IOException;import java.io.InputStream;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.util.Properties;public class JDB

2020-05-20 23:43:49 196

原创 javaweb-JDBC_2

MyEclipse-2017-CI-7-offline-installer-windows一、JDBCUtil工具类的封装1、Java编码的两个优化思想:1.1 对于程序中可以独立完成一个功能的代码块, 一旦出现超过2次以上(重复使用),我们要进行封装。 封装可以提高代码的复用性 。1.2 对于只需要执行一次的代码, 放到静态初始代码块中 。(一般对于涉及到IO获取资源的操作)2、工具类的特点2.1 工具类主要作用是对外提供具体的功能2.2 工具类里面的方法都是静态的3、JDBCUtil 第

2020-05-20 23:24:04 148

原创 javaweb-JDBC_1

一、引言开发工具:MyEclipse-2017-CI-7-offline-installer-windowsa)Junit测试作用:测试代码现有测试方式-主函数 存在缺陷1、测试类数目过多 不方便管理2、不利于回溯性测试Junit测试使用方式1、引入junit4相关库文件a)第一种:右击项目-》build path-》add librarys—》JUnit—》4版本—》确定b)第二种:直接书写测试类—》光标放到@Test上—》add junit4 library to bp2、准备

2020-05-19 23:21:26 197

原创 javaweb-Oracle_3

一、 建表 - create table 【重点】建表的语法结构:create table 表名(字段 数据类型 约束,字段 数据类型 约束);标识符命名规范2.1 由字母、数字、下划线、$、# 组成2.2 只能以字母开头2.3 不能以关键字和保留字命名 | 比如: user select from 等 共一千多个2.4 名字最长不能超过30个字符Oracle中的数据类型3.1 数值类型number(5) - 代表存储最大长度为5位的整数 , 等效写法 number

2020-05-18 23:51:53 169

原创 javaweb-Oracle_2

一、Oracle中的伪列1、Oracle数据库中的伪列并不是表中真实存在的列, 我们通过select * 是查询不到的。 它是由Oracle数据库系统自动维护的一种列, 如果想查看伪列的信息,必须通过手动指定 。两个常用的伪列 :2.1 rowid : rowid是一个18位字符组成的唯一的标识一条数据, 是通过对数据的存放物理地址计算后得到的。注: rowid采用的是Base64编码生成的。当我们知道一条数据的rowid后,可以将其作为查询条件,而且效率最高。2.2 rownum 【重点】

2020-05-18 23:33:16 138

原创 javaweb-Oracle_1

一、数据的存储1.Java程序中存储数据:1.1使用变量存储1.2使用数组和集合存储1.3使用对象存储注意: 以上存储数据的方案不能保证数据的持久存储。 都是基于内存存储,属于瞬时数据,伴随着程序运行的终止而消失。2.使用文本文件存储数据:存在的缺陷:-对于数据的类型没有明确的划分。-安全性的问题。 没有提供完善的数据备份和恢复机制。-对于查找指定条件的数据,操作很麻烦。-在多用户并发访问的时候, 容易造成数据的混乱。二、DBMS(数据库管理系统- DataBase Manageme

2020-05-17 23:14:19 186

原创 java基础语法-设计模式

设计模式优秀经验的总结。 23种 适配器 单例 工厂 代理 模板……、a)单例设计模式单独的实例对象。特点:a、构造参数私有化。b、公开静态的方法。c、私有静态的对象实例。i.创建单例的三种方式饿汉式|懒汉式|无名氏ii.工厂设计模式解耦合 、生产对象待续。。。。。...

2020-05-17 22:08:39 102

原创 java基础语法-反射

一、两个概念a)类的对象:基于new关键字创建的对象。b)类对象:类加载的产物。类加载:当JVM第一次使用某个类的时候,会通过CLASSPATH路径找到.clas文件,将这个类的所有信息(类名,方法名,属性,构造方法,父类,父接口….)保存起来,保存到内存中。类加载只会进行一次。c)Class 由Sun公司写好了拿过来即可 java.lang包下。d)类对象的获取方式(不能通过new的方式创建)i.通过getClass()方法获取类对象ii.通过类名.class属性获取类对象iii.通

2020-05-17 22:04:40 71

原创 java基础语法-线程

一、线程的概念a)什么是进程在操作系统下并发的多个任务。并发的原理:宏观并行,微观串行。解释:cpu在同一个时间段只能运行一个应用程序,OS(操作系统)会为每一个软件分配一定的时间片,多个应用在不同的时间片交替执行。由于cpu运行的速度是非常快的,导致宏观上应用程序是并行,其实微观上是串行。b)什么是线程相当于轻量级的进行。在一个进程中可以同时运行多个任务。线程是进程的执行单位。线程的组成部分:i.CPU:由os分配时间片ii.数据:1.堆空间:对象 堆空间共享(成员变量

2020-05-17 21:57:24 170

原创 java基础语法-IO

一、持久化a)目前的数据全部存储在内存中,但是只是临时存储,重新运行程序,数据丢失,无法持久化。b)持久化:将数据从内存中转移到存储设备的过程。二、流a)流的概念:就是在内存与存储设置设备之间转换的通道。b)流是具有方向三、流的分类【重点】a)按照方向分类(以内存为参照物)[重点]i.输入流:将 <存储设备> 中的 数据 转移到 <内存> 中。ii.输出流 : 将 <内存> 中的 数据 转移到 <存储设备> 中。b)按照单位分类i.字节

2020-05-17 21:37:27 164

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除