Java页大数据-CSDN博客

原创记录kafka-flink-kafka的end-to-end的exactly-once语义

记录kafka-flink-kafka的end-to-end的exactly-once语义步骤代码步骤开启checkpoint、stateBackend的设置和checkpoint配置设置kafka source的配置读取kafka source message随意的transformation；并打印结果kafka sink端的配置输出到kafka sink端执行代码package com.javaye.demo.exactly;import org.apache.common

2024-04-11 23:58:43 331

原创大数据之kafka应用

指定消费者组从最新的offset进行消费（没有指定group，则全部都消费，指定了会从消费者组最新的offset开始消费）指定消费者组从最新的offset进行消费（没有指定group，则全部都消费，指定了会从消费者组最新的offset开始消费）other:重设指定消费者组指定分区的指定offset（topic后使用。重设指定消费者组指定分区的指定offset（topic后使用。消费指定topic的message:指定分区的offset。重设指定消费者组消费指定的offset（每个分区）

2024-04-11 07:45:00 1092

原创 Go实现http同步文件操作 - 增删改查

即页面展示不存在该文件。你也可以再利用savePage来生成一个。项目下的文件已经被删除，若此时再次执行则会提示无法删除。文件,如果存在，则会返回页面文件内容。使用bufio操作文件，可以更换其它方式。一个简单的webApp就完成了。尝试在文本框输入内容，这里输入。，然后点击Save进行保存。页面展示的内容为文件的内容。内容添加文件后缀，固定为。运行程序，到浏览器输入。会查看当前项目下是否存在。运行程序，到浏览器输入。运行程序，到浏览器输入。页面也会展示成功的提示。

2023-12-08 18:49:16 1111

原创 go的两大测试方法- 官网推荐

但是我们知道这个方法对于汉字就是有bug，我们先跳过，看一下第二个方法是否可行。所以，我们需要修改我们的函数代码。但是此处为了保留之前的代码，就直接增加一个函数即可。为了方便，fuzz模糊测试直接在fuzzingToLearn_test.go文件进行。这里是只先验证错误的情况，即新增加的testdata目录下的文件内容情况。这里就跳过了前面所介绍的两种测试验证，直接进行fuzz模糊测试。文件，然后再再进行测试该方法即可。结果：测试不通过，即有bug。查看文件同目录产生了新的文件。同样的还是生成了文件。

2023-12-07 08:15:00 1137 1

原创服务端客户端使用Go协程通信

服务端客户端使用Go协程通信

2023-12-06 15:20:46 642

原创 Autojump在linux安装与测试

Autojump安装与测试

2023-11-05 17:27:22 186

原创 flinkcdc初识

flinkcdc初识：0-1操作简单教程

2023-10-16 15:22:40 112

原创 redisson初识-分布式锁

【代码】redisson初识-分布式锁。

2023-10-13 18:19:17 53

原创 springboot整合redis的脚手架

快速搭建springboot整合redis环境

2023-10-12 14:43:16 41

原创 expect实现快速执行远端服务器的脚本

expect实现快速执行远端服务器的脚本

2023-01-02 00:12:36 310

原创 sshpass结合gpg加解密文件(或base64编码文件)给scp实现传递密码参数

sshpass结合gpg加解密文件(或base64编码文件)给scp实现传递密码参数

2023-01-02 00:05:27 210

原创 centos7部署.harbor2.7.0及推拉镜像

centos7部署.harbor2.7.0及推拉镜像

2022-12-31 23:51:16 933 1

原创测试环境docker搭建registry服务(非生产)

测试环境docker搭建registry服务

2022-12-31 23:46:28 172

原创 centos7在线安装mysql8

centos7在线安装mysql8

2022-12-31 23:45:19 260

原创 VirtualBox设置静态ip

VirtualBox 设置静态ip

2022-12-31 23:42:53 3848 3

原创使用 JDBC 将应用程序连接到 ClickHouse

使用 JDBC 将应用程序连接到 ClickHouse

2022-08-30 23:07:53 802

原创使用 JDBC 将 ClickHouse 连接到外部数据源

clickhouse利用JDBC Bridge来操作mysql

2022-08-30 23:06:49 840

原创工作一点总结

网络及端口了解

2022-08-30 21:06:03 489

原创 kylin4.0.1安装与填坑

kylin4.0.1安装解压安装包将hdfs-site.xml,core-site.xml,hive-site.xml,spark-defaults.conf文件添加到/$KYLIN_HOME/conf目录下，软连接也可以（建议）将自身的HADOO_HOME,HIVE_HOME,HBASE_HOME,SPARK_HOME的值添加到/$KYLIN_HOME/bin/kylin.sh文件中；内容如下：export HADOOP_HOME=/opt/hadoop-3.3.2export HIVE_

2022-05-22 23:46:05 1124 1

原创基于hadoop-3.3.2安装hbase-2.4.11，报错：object is not an instance of declaring class（已处理）

基于hadoop-3.3.2安装hbase-2.4.11，报错：object is not an instance of declaring class安装之前看了hbase官网，hbase-2.4.11和hadoop-3.3.2是不冲突的，适配了，于是选择了这两个版本来进行使用；但是无奈还是碰到了问题，一开始以为是不兼容的问题；后面查了资料；原来是因为hbase和Hadoop有冲突包；question：2022-05-16 21:15:56,450 WARN [RS-EventLoopGrou

2022-05-16 23:42:28 2811 9

原创封装数据--Map，远离POJO

用Map替代pojo类来装数据需要用到的依赖！如下： <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.66</version> </dependency>作用用以

2022-05-09 20:50:49 375

原创 sqoop离线数据迁移 --- MYSQL TO HDFS

mysql导入数据到hdfs （sqoop）# 准备： [root@leader sqoop-1.4.7.bin__hadoop-2.6.0]# hdfs dfs -mkdir -p /sqoop/mysql/[root@leader sqoop-1.4.7.bin__hadoop-2.6.0]# hdfs dfs -ls -R /sqoopdrwxr-xr-x - root supergroup 0 2022-03-26 02:40 /sqoop/mysql# --n

2022-03-26 03:34:44 237

原创 sqoop安装及测试（坑解决）

sqoop 安装：下载sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz （非sqoop-1.4.7.tar.gz ）解压修改sqoop-env-template.sh文件名为sqoop-env.sh；并修改一下内容！！[root@leader bin]# echo $HADOOP_HOME/opt/hadoop-3.2.2[root@leader bin]# echo $HBASE_HOME/opt/hbase-2.3.6[root@leader bin]# e

2022-03-26 03:23:11 2905

原创 datax数据迁移 --- hdfs到mysql

datax数据迁移hdfs到mysql记录：hdfsreaderTomysqlwriter.json[root@slave1 mytemplate]# python /opt/datax/bin/datax.py -r hdfsreader -w mysqlwriter >> hdfsreaderTomysqlwriter.json[root@slave1 mytemplate]# cat hdfsreaderTomysqlwriter.json{ "job": {

2022-03-24 23:52:00 1750

原创 spark2.3.0基于hadoop3.1.0安装

本文选取基于前提要装scala。spark-env.sh配置：JAVA_HOME=/opt/jdk1.8.0_161HADOOP_CONF_DIR=/opt/hadoop-3.1.0/etc/hadoopexport YARN_CONF_DIR=HADOOPHOME/etc/hadoopexportHADOOPCONFDIR=HADOOP_HOME/etc/hadoopexport HADOOP_CONF_DIR=HADOOPHOME/etc/hadoopexportHADOOPCONFD

2022-03-24 23:15:52 426

原创 datax的mysql 到hdfs文件系统 --- 支持高可用

datax的mysql 到hdfs文件系统上！支持高可用mysqlreaderTohdfswriter.json[root@slave1 mytemplate]# python /opt/datax/bin/datax.py -r mysqlreader -w hdfswriter >> mysqlreaderTohdfswriter.json[root@slave1 mytemplate]# cat mysqlreaderTohdfswriter.json{ "job"

2022-03-24 23:07:41 2086 1

原创 hive插入数据失败解决方法

记录一次hive 错误描述错误：进入hive客户端插入数据报错# 报错：hive (default)> insert into javaAndBigdata.student(id,name) values (3,"java页大数据");Query ID = root_20220323224810_5192a9f4-95ae-4166-b21e-c8e5f1493c32Total jobs = 3Launching Job 1 out of 3Number of reduce task

2022-03-24 00:03:16 10208 9

原创解析fsimage文件（文件与数据块）

fsimage文件与editslog文件存储的路径 查看hdfs-site.xml属性：fsimage、editslog文件存储：（可多目录）dfs.namenode.name.dir/opt/data/nameblk数据块文件：（可多目录） dfs.datanode.data.dir /opt/data/dn1,/opt/data/dn2fsimage和editslog文件存储在dfs.namenode.name.dir的值下面。/opt/data/name/current/

2021-06-03 23:39:25 2195

原创 Spring知识点

SpringSpring框架概述（基于5.x）spring是一个轻量级的开源的javaEE框架轻量级：引入的jar较少，独立使用目的：解决企业应用开发的复杂性spring有两大核心部分：IOC和AOPIOC：控制反转。把创建对象过程交给spring进行管理AOP：面向切面。不修改源代码进行功能增强spring特点：方便解耦，简化开发AOP编程支持方便程序的测试方便集成各种优秀框架降低JavaEE api开发难度方便进行事务操作spring创建对象可以配

2021-04-01 20:52:20 56

原创 Hive知识点

Hivehive的概念hive由于解决海量结构化日志的数据统计。hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类sql查询功能本质：将hql转化成MapReduce程序hive处理的数据存储在hdfs上hive分析数据底层的默认实现是MapReduce执行程序运行在yarn上hive的优缺点优点操作接口采用类sql语法，提供快速开发的能力避免写MapReduce，减少开发人员的学习成本hive的执行延迟高，常用于数据分析，对实时性要

2021-03-05 11:35:28 134

原创 spark知识点

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WatTekGu-1614914949331)(C:\Users\Thinkpad\AppData\Roaming\Typora\typora-user-images\1614155080812.png)]sparkcore前面spark的rdd是核心，用于sparksql（dataframe、dataset），sparkstreaming和机器学习；spark：基于内存的快速、通用、可扩展的大数据分析计算引擎迭代计

2021-03-05 11:31:59 270

原创 kafka知识点

kafkakafka定义：kafka是一个分布式的基于发布订阅模式的消息队列，应用于大数据实时领域发布订阅模式（一对多，消费者消费数据之后不会清除消息）：消息生产者（发布）将消息发布到topic中，同时有多个消息消费者（订阅subscribe）消费该消息。topic的消息会被所有订阅者消费。kafka基础架构组成组成：生产者、消费者（消费者组）、broker（服务器）、zookeeperproducer生产者：消息生产者，就是向kafka broker发消息的客户端consumer消费者：

2021-03-05 11:28:07 155

原创 hbase小干货来了！！！

hbase小干货来了！！！现在竟然还有人用idea建立maven项目导依赖包，建议还是直接在pom文件上添加依赖即可，方便，还不需要解压一个hbase包，难道不美滋滋吗？下面这个是我的pom文件的依赖：上图左边两个小文件都是Linux下的hbase安装包下提取的，为的就是方便连接zookeeper和控制台输出减少info级别的日志；哈哈哈其实就是懒惰；然后我的java代码是一个个单元来测试的，因此在测试单元前面需要获得一些资源，而且在测试单元也需要用到，因此就有了@Before单元了；然后因为

2021-01-02 18:52:17 267

原创 Hanlp自定义字典（文件） java

Hanlp自定义字典（文件） java1.idea需要更改的地方位置：Hanlp.properties文件要放在resources目录下然后更改hanlp.properties文件内容，如下：第一，root这里填写的目录是你解压后的data文件的目录（我的就是在D：/hanlp/data）第二：customDictionary这里去掉上面圈起来的字典，然后加上自己的字典文件最后截图如下：然后导入jar包，导包细节就不说了，记得要两个哦，一个是hanlp-1.7.8的，一个是hanlp-

2020-12-10 13:36:27 1597 2

原创 Linux上命令行出现：You have new mail in /var/spool/mail/root警告！！

Linux上命令行出现：You have new mail in /var/spool/mail/root警告！！解决办法：1.关闭提示：echo “unset MAILCHECK”>> /etc/profilesource /etc/profile2.查看ls -lth /var/spool/mail/3.清空：（该点才是真正清除mail命令查看的内容）cat /dev/null > /var/spool/mail/rootecho ‘’ > /var/spool

2020-11-13 10:30:44 304 1

原创标题hadoop集群刷新时间同步脚本

标题hadoop集群刷新时间同步脚本：对于集群，如果时间相差很大，主节点会认为该节点宕机了，所以，刷新时间同步很有必要，但是选择到每个集群一一输入命令进行刷新，这样也会很繁琐首先该脚本的实现是基于实现了各个节点免密码登录，所以可以选择登录到不同的节点；该主节点为master，子节点为slave1，slave2，slave3三个脚本代码如下：#! /bin/bashssh slave1 “service ntpd stop;ntpdate master;service ntpd start;ch

2020-11-05 13:52:12 278

原创安装hadoop集群，亲测有效

##安装hadoop集群：步骤如下：通过xmanager的Xftp上传hadoop-2.6.4.tar.gz文件到/opt目录备注#没有xmanager的可以去下载哦，该软件很好用解压缩hadoop-2.6.4.tar.gz 文件，进入该目录tar -zxf hadoop-2.6.4.tar.gz -C /usr/local解压后即可，看到/usr/local/hadoop-2.6.4文件夹mv hadoop-2.6.4 Hadoop此时我已经更改hadoop-2.6.4为Hadoop，以后注意

2020-11-05 13:46:17 217 1

原创 Idea导入项目：hadoop-spark-hive

标题Idea导入项目：hadoop-spark-hive建议：（先浏览一遍会更好，否则可能会因为局部浏览而导致错误）注意要换相对应的jar包：导入spark目录下的jar目录的包，导入scala的jar包（项目匹配的版本）导入的项目无法自动找到相对应的类，因此要在这里两个地方root一下：在上面相对应的位置左键，选择一下：关于权限，去给他权限呗；4.更换一下hive-size.xml（是在Linux下更换，记得是换掉哦，顺便也把换掉后的hive-site.xml给到项目里面去）#怕的

2020-11-03 13:12:21 286 1

空空如也

空空如也