DIY……-CSDN博客

原创单机物理机部署Datax

为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。上传文件、解压缩、启动。

2024-01-13 17:48:36 512

原创物理机本地和集群部署Spark

1）官网地址：http://spark.apache.org/2）文档查看地址：https://spark.apache.org/docs/3.1.3/3）下载地址：注意：sc是SparkCore程序的入口；spark是SparkSQL程序入口；master = local[*]表示本地模式运行。说明：本地模式下，默认的调度器为FIFO。

2024-01-13 17:13:29 580

原创物理机部署三节点Kafka集群

一、部署Kafka集群官方下载地址：http://kafka.apache.org/downloads.html上传安装包到102的/opt/software目录下解压安装包到/opt/module/目录下，修改解压包名为kafka修改config目录下的配置文件server.properties内容#broker的全局唯一编号，不能重复，只能是数字。broker.id=102#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的线程数量num.i

2024-01-09 10:03:44 629

原创物理机搭建单节点Flume

一、安装flumeFlume官网地址：http://flume.apache.org/文档查看地址：http://flume.apache.org/FlumeUserGuide.html下载地址：http://archive.apache.org/dist/flume/安装将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下将lib文件

2024-01-09 10:01:59 421

原创物理机搭建hive

配置Metastore到MySql，在/opt/module/hive/conf目录下新建hive-site.xml文件(新建的配置文件中的配置会覆盖默认配置)将MySQL安装包上传到/opt/software目录下，解压MySQL安装包资源到/opt/software 下新创建的mysqljars目录。注意：在配置了此参数后，启动hive之前必须先启动元数据服务，否则，hive启动后无法连接到元数据服务。初始化完成后，查看临时生成的root用户的密码，也是首次登录msql的密码；

2024-01-08 18:06:21 699

原创 Hadoop-HA高可用

在opt目录下创建一个ha文件夹，将/opt/module/下的 hadoop-3.1.3拷贝到/opt/ha目录下（记得删除data 和 log目录）配置core-site.xml。

2024-01-08 14:03:26 648

原创 Zookeeper三节点搭建

在/opt/module/zookeeper-3.5.7/这个目录下创建zkData，在/opt/module/zookeeper-3.5.7/zkData目录下创建一个myid的文件，在文件中添加与server对应的编号（注意：上下不要有空行，左右不要有空格）集群模式下配置一个文件myid，这个文件在dataDir目录下，这个文件里面有一个数据就是A的值，Zookeeper启动时读取此文件，拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。配置zoo.cfg文件。

2024-01-06 23:40:51 850

原创 Hadoop集群三节点搭建（二）

以master为样板机克隆三台出来，克隆前先把master关机按照上面的步骤克隆其他两个就可以了，

2024-01-06 20:08:04 648

原创 Hadoop集群三节点搭建（一）

能看到以上结果，则代表Java安装成功。注意：如果Hadoop命令不能用启虚拟机。

2024-01-04 20:44:30 641

原创 VM安装虚拟机及初始化操作

对安装好的VMware进行网络配置，方便虚拟机连接网络，本次设置建议选择NAT模式，需要宿主机的Windows和虚拟机的Linux能够进行网络连接，同时虚拟机的Linux可以通过宿主机的Windows进入互联网。7.保证Linux系统ifcfg-ens33文件中IP地址、虚拟网络编辑器地址和Windows系统VM8网络IP地址相同。按如上格式修改IP信息（地址，网关，DNS服务器），修改完毕后全部点击确定退出。许可证：ZC10K-8EF57-084QZ-VXYXE-ZF2XF。到此等待系统重启~~~~

2024-01-04 19:10:49 3084 1

原创 Scala 简介一

scala是完全面向对象的语言，所以无法使用break，continue关键字这样的方式来中断，或继续循环逻辑，而是采用了函数式编程的方式代替了循环语法中的break和continue。将问题分解成一个一个的步骤，将每个步骤进行封装（函数），通过调用这些封装好的功能按照指定的步骤，解决问题。//如果布尔表达式1为true，则执行该语句块。//如果布尔表达式2为true，则执行该语句块。//如果布尔表达式为true则执行该语句块。//上面条件都不满足的场合，则执行该语句块。...

2022-07-26 17:10:13 2195

原创 hive优化

hive 优化

2022-07-17 19:49:04 299

原创 hive自定义函数

hive udf

2022-07-16 21:57:30 562

原创 hive常用的函数

1.查看系统自带的函数2.显示自带的函数的用法descfunction函数名;3.详细显示自带的函数的用法descfunctionextended函数名。

2022-07-15 23:51:29 1551

原创 Hive基本使用（5）

a.在有些情况下，我们需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作，distributeby子句可以做这件事。在很多情况下，并不需要全局排序，此时可以使用sortby。添加分区语法经常用到（altertable表名addpartition（分区字段=‘分区字段值’））b.distributeby类似MR中partition（自定义分区），进行分区，结合sortby使用。c.在客户端设置（非配置文件等）的时效性是本次session，会话断开，需要在设置。......

2022-07-14 21:45:52 910

原创 Hive基本使用（4）

Hive基本使用（4）

2022-07-05 00:06:38 149

原创 Hive基本使用（3）

Hive基本使用（3）

2022-07-04 23:35:30 345 2

原创 Hive基本使用（2）

hive dml

2022-06-19 23:16:32 3212

原创 Hive基本使用（1）

hive ddl

2022-06-19 18:12:17 1352

原创 Shell脚本

获取当前服务器时间

2022-06-19 08:15:24 228

原创 CentoOS7 安装Hive

环境搭建

2022-06-04 11:17:30 1194

原创 Git的使用

一、使用git的好处a.项目未使用版本控制工具之前纯在的问题：1.项目的安全性太低2.项目的版本比较混乱3.项目的无端报错4.项目没办法做到协同开发b.什么是git：Git是分布式版本控制及协同开发工具c.版本控制工具的分类：1.集中式版本控制工具 cvs svn2.分布式的版本控制工具 git二、git的下载和安装a.官网：从 http://msysgit.github.io/ 下载，然后按默认选项安装即可。b.安装：1.傻瓜式安装，一路下一步安装完成后，在开始菜单里找

2020-06-29 21:27:37 180

原创 nodejs基本模块（三）

http模块首先我们先简单了解一下http协议，在web应用中服务器把页面传递给浏览器，其实是把HTML代码传递给

2020-06-26 16:30:24 171

原创 vscode集成git

1.git本地安装官网下载地址安装完成后，在开始菜单里找到“Git”->“Git Bash”，蹦出一个类似命令行窗口的东西，就说明 Git 安装成功！如图：命令行输入：$ git config --global user.name "Your Name"$ git config --global user.email "email@example.com"注意 git config 命令的 --global 参数，用了这个参数，表示你这台机器上所有的 Git 仓库都会使用这个配置

2020-06-26 16:15:54 2272

原创 Git的使用

问题：fatal: HttpRequestException encountered. An error occurred while sending the request. Username for ‘https://github.com’: remote: Repository not found. fatal: Authentication failed for ‘https://github.com/duanyihu/nodejsworkspace.git/’原因：Github 禁用了T

2020-06-21 21:00:59 234

原创 nodejs基本模块（二）

stream1.含义：是nodejs提供在服务端可用的模块，目前支持流这样的额数据结构。流数据结构的特点：有序、依次读入或者一次写入、不能像Array随机定位。也叫标准输入流（stdin）。2.在Node.js中，流也是一个对象，我们只需要响应流的事件就可以了：data事件表示流的数据已经可以读取了，end事件表示这个流已经到末尾了，没有数据可以读取了，error事件表示出错了。如下：...

2020-06-14 23:17:16 170

原创 nodejs基本模块（一）

一、基础定义Node.js是运行在服务区端的JavaScript环境，服务器程序和浏览器程序对比，没有浏览器的安全限制，服务程序必须接收网络请求，读写文件，处理二进制内容。nodejs模块实现了基本的服务器功能，这些模块在浏览器是没法执行的，底层是使用了c/c++在Node.js运行环境中实现的。二、模块分类global：js中有且仅有一个全局对象，在浏览器中是window。在node.js中的全局对象则是global，这个对象的属性和方法也和浏览器环境中的window不同。我们从黑窗口进入可以看到

2020-06-09 22:46:44 335

原创 Nodejs模块内容和npm的使用

一、模块的含义为了编写可维护的代码，我们把很多函数分组，分别放到不同的文件里，这样，每个文件包含的代码就相对较少，很多编程语言都采用这种组织代码的方式。在Node环境中，一个.js文件就称之为一个模块（module）。好处：a、提高了代码的可维护性。b、编写代码不必从零开始。当一个模块编写完毕，就可以被其他地方引用。我们在编写程序的时候，也经常引用其他模块，包括Node内置的模块和来自第三方的模块。c、还可以有效避免函数名和变量名的冲突...

2020-06-07 16:31:00 212

原创 Nodejs开发环境搭建

Visual Studio Code（window系统下）我们已经在上篇文章已经介绍过了，安装的流程。安装好之后会出现如下图标：再打开前在本地创建一个vs code 的工作空间，双击打开：vs code引入文件：这样就引入了文件。接下来就是运行文件：配置之后会出现一个launch.json文件：然后：点击run就可以运行了。好啦入门就完成喽。...

2020-05-30 23:30:39 161

原创 node.js安装

一、简介JavaScript是单线程执行，根本不能进行同步IO操作，所以，JavaScript的这一“缺陷”导致了它只能使用异步IO。Node上运行的JavaScript相比其他后端开发语言优势是借助JavaScript天生的事件驱动机制加V8高性能引擎，使编写高性能Web服务轻而易举。其次JavaScript语言本身是完善的函数式语言，在前端开发时，开发人员往往写得比较随意，让人感觉JavaScript就是个“玩具语言”。但是，在Node环境下，通过模块化的JavaScript代码，加上函数式编程，并

2020-05-30 22:40:37 204

空空如也

空空如也