- 博客(32)
- 收藏
- 关注
原创 flink 实时写入 hudi 参数推荐
【金山文档】 数据湖任务并行度计算 https://www.kdocs.cn/wo/sl/v1GIhjY。
2023-12-29 14:54:16 787
原创 flink 消费Kafka 空指针问题
flink 消费Kafka 空指针问题error:2021-12-02 10:51:55,644 WARN org.apache.flink.runtime.taskmanager.Task [] - Source: Custom Source (1/3)#4 (92d97e5b78862c632d32b272b843bf4b) switched from RUNNING to FAILED with failure cause: java.lang.NullPointerException a
2021-12-14 09:41:20 4117 1
原创 Kafka常用消费者命令
bin/kafka-console-consumer.sh --bootstrap-server pDataHadoop05:9092 --topic dtinsure_mongo3.kbc_mpls_prod.InsurePlan2021 --from-beginningbin/kafka-console-consumer.sh --bootstrap-server pDataHadoop05:9092 --topic dtinsure_mongo3.kbc_mpls_prod.MarketFamily
2021-12-14 09:38:18 12813 3
原创 Kafka connector 操作
curl -X DELETE http://pDataxxx05:8083/connectors/xxx_mango_kbc_mpls_prod_02 curl -X PUT http://pDataxxx05:8083/connectors/xxx_mango_kbc_mpls_prod_01/pause curl -X GET http://pDataxxx05:8083/connectors/xxx_mango_kbc_mpls_prod_02/status curl -H "Accept:.
2021-12-14 09:33:29 1442
原创 debezium to oracle 11g 实时同步
第1章 debezium概述1.1 debezium是什么Debezium 是一组分布式服务,用于捕获数据库中的更改,以便您的应用程序可以查看这些更改并对其做出响应。 Debezium 在更改事件流中记录每个数据库表中的所有行级更改,应用程序只需读取这些流以查看更改事件发生的相同顺序。1.2 debezium的依赖Debezium 构建在 Apache Kafka 之上,并提供与 Kafka Connect 兼容的连接器,用于监控特定的数据库管理系统。 Debezium 在 Kafka 日志中记录数
2021-10-21 10:20:25 3503 8
原创 Flink基于HyperLogLog写入ES6实践代码
import com.alibaba.fastjson.JSONObject;import com.bean.ActiveBean;import com.bean.BaseBean;import com.utils.MyKafkaUtil;import net.agkn.hll.HLL;import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;import org.apache.flink.api.com
2021-07-07 10:30:20 231
原创 记录一次Flink写入ES6的踩坑经历
近日在一次Flink打包运行插入ES的任务时,遇到一些版本冲突的问题Flink自己实现的连接器里提供的ES版本为6.3.1(6.x连接器版本)而我们集群环境则为6.5.4运行时会报一些异常java.lang.NoClassDefFoundError: org/apache/flink/streaming/connectors/elasticsearch/ActionRequestFailureHandlerat com.guttv.test.AgDayHyperLogLogUv.main(AgDa
2021-06-29 20:15:21 1056 1
原创 Flink运行架构
运行架构Flink Runtime 层的主要架构如下图所示,它展示了一个 Flink 集群的基本结构。整体来说,它采用了标准 master-slave 的结构,master负责管理整个集群中的资源和作业;TaskManager 则是 Slave,负责提供具体的资源并实际执行作业核心组件Application Master 部分包含了三个组件:Dispatcher负责接收用户提供的作业,并且负责为这个新提交的作业启动一个新的 JobManager 组件ResourceManager负责资源
2021-01-17 23:10:19 222
原创 Ambari入门及安装
Ambari简述什么是AmbariApache Ambari项目旨在通过开发用于配置,管理和监控Apache Hadoop集群的软件来简化Hadoop管理。Ambari提供了一个直观,易用的Hadoop管理Web UI。Ambari的功能提供了跨任意数量的主机安装Hadoop服务的分步向导。处理群集的Hadoop服务配置。提供集中管理,用于在整个集群中启动,停止和重新配置Hadoop服务。提供了一个仪表板,用于监控Hadoop集群的运行状况和状态。利用Ambari指标系统进行指标收集。利用
2020-11-07 15:26:23 3798 2
原创 无线网卡驱动突然坏了怎么办
排查原因,卸载重装驱动不能解决问题,网上各路教程 无济于事在使用360驱动大师,驱动人生网卡版 驱动精灵网卡版后发现驱动精灵在检测到网卡驱动有问题时,会提供一个最新版网卡驱动的二维码页面,手机扫码后即可下载最新版驱动,安装好后,解决问题!!...
2020-10-22 00:11:24 2300
原创 Python简单教程
Python综述python是什么Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。Python是一种解释型语言: 这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。Python是交互式语言: 这意味着,我们可以在一个Python提示符后面直接互动执行写自己的程序。Python是面向对象语言: 这意味着Python支持面向对象
2020-10-20 09:48:41 589 2
原创 关于halo博客升级失败造成启动失败的修复
起因网页无法打开由于原来的文件路径在单独的module文件夹内,并进行了备份,但由于网络不通畅,新的升级包1.3.0并没有完成升级(文件夹内容为空),后来发现导致配置文件里绝对路径启动的jar包自然没办法成功启动。而我在查找过程中,把备份也给删了!!修复因为配置文件和数据库等核心在 ~/.halo中,所以jar包丢失仅仅只导致不能启动。官方首推的wget https://dl.halo.run/release/halo-{{version}}.jar -O halo-latest.jar这个
2020-10-20 09:48:01 1142 5
原创 halo在域名绑定前上传的文章图片路径转移问题
问题阐述一开始我部署好halo博客后,就上传了文章和图片,然后在服务器备案之后,进行域名解析时发现,原来的文章和图片的链接前缀都是ip地址开头,导致博客地址从ip地址改为 域名之后,文章样式,图片无法打开。解决办法查阅halo官方论坛后,发现图片等信息是在./halo 下存储 数据信息在默认h2数据库目录下。官方给出了解决方案登录到服务器 进入halo文件目录 修改vim ~/.halo/application.yaml修改内容如下: h2: console:
2020-10-20 09:46:39 1054
原创 配置ssl证书失败
安装 certbot 以及 certbot nginx 插件sudo yum install certbot python2-certbot-nginx -y执行配置,中途会询问你的邮箱,如实填写即可sudo certbot --nginx选择21自动续约sudo certbot renew --dry-run我个人执行到第二步 报错Traceback (most recent call last):File “/usr/bin/certbot”, line 5, in from p
2020-10-20 09:44:31 633
原创 markdown语法收集
原因日前在写博客的过程中,没少使用md语法,但halo博客或者传统的md语法有时并不能满足全部需求,个别语法需要嵌入HTML语言来实现,感觉每次都上网搜比较麻烦,遂决定整理一下简单入门实例**粗体***斜体*# 一级标题## 二级标题### 三级标题#### 四级标题##### 五级标题###### 六级标题++下划线++~~中划线~~> 段落引用1. 452. 123- 1[链接](链接地址)![图片名称](图片链接地址)|表格|column2|co
2020-10-20 09:43:21 209
原创 datax简单入门和oracle数据库安装
概述什么是dataxDataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX的设计为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。框架设计运行原理快
2020-10-20 09:35:48 1960
原创 官方maven jar包如果因网络原因下载失败(频繁出现last.updated)解决办法
一开始用下载jar包到本地maven仓库的方式,发现未能解决问题于是pom.xml文件里加入阿里云下载链接,即可解决 <repositories> <repository> <id>nexus-aliyun</id> <name>nexus-aliyun</name> <url>http://maven.aliyun.com/ne.
2020-10-20 09:33:36 798
原创 阿里云服务器配置群发脚本时,脚本不起作用
sudo vim/etc/profile 加入一行:export PATH=$PATH:/脚本目录/再记得source 加载一下profile脚本成功启动
2020-10-20 09:31:51 285
原创 用户画像简析
项目整体介绍电商平台系统上线运行一段时间后,可以收集到大量的用户行为数据;利用大数据技术进行深入挖掘和分析,可以得到感兴趣的商业指标。而随着大数据技术的深入研究与应用,简单的统计指标已经不能满足业务发展的需求了。企业的关注点,日益聚焦在、如何利用大数据,来为精细化运营和精准营销服务。而要做精细化运营,首先要建立本企业的用户画像。数据源分析项目所用到的数据源,就是业务系统中收集的数据,保存在MySQL的表中。主要有以下这些表:用户信息表(t_member)用户地址表(t_member_addr
2020-10-20 09:27:01 404 2
原创 大数据技术之Debezium
Debezium概述Debezium是用于捕获变更数据的开源分布式平台。可以响应数据库的所有插入,更新和删除操作。Debezium依赖于kafka上,所以在安装Debezium时需要提前安装好Zookeeper,Kafka,以及Kakfa Connect。Kafka ConnectKafka Connect用于在Apache Kafka和其他系统之间可扩展且可靠地数据流传输数据的工具,连接器可以轻松地将大量数据导入或导出。 Kafka Connect当前支持两种模式,standalone和dist
2020-08-31 19:09:53 14156 1
原创 Flink简介
概述.流技术处理的演变.在开源世界里,Apache Storm项目是流处理的先锋。Storm最早由Nathan Marz和创业公司BackType的一个团队开发,后来才被Apache基金会接纳。Storm提供了低延迟的流处理,但是它为实时性付出了一些代价:很难实现高吞吐,并且其正确性没能达到通常所需的水平,换句话说,它并不能保证exactly-once,即便是它能够保证的正确性级别,其开销也相当大。在低延迟和高吞吐的流处理系统中维持良好的容错性是非常困难的,但是为了得到有保障的准确状态,人们想到了一
2020-08-30 13:47:28 407
原创 Shell中单引号和双引号区别
1)在/home/coder/bin创建一个test.sh文件[coder@hadoop102 bin]$ vim test.sh在文件中添加如下内容#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`2)查看执行结果[coder@hadoop102 bin]$ test.sh 2020-08-28$do_date2020-08-28'2
2020-08-28 18:51:34 107
原创 Hadoop集群搭建
虚拟机环境准备提示:安装需要具备Linux基础知识克隆虚拟机 修改克隆虚拟机的静态IP修改主机名(包括Linux、Windows的hosts文件)关闭防火墙创建atguigu用户(名字自拟)配置atguigu用户具有root权限在/opt目录下创建文件夹(1)在/opt目录下创建module、software文件夹[atguigu@hadoop101 opt]$ sudo m...
2019-06-06 16:06:31 327
原创 Hadoop架构概述
HDFS架构概述HDFS(Hadoop Distributed File System)的架构概述NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。DataNode(dn):在本地文件系统中存储文件块数据,以及块数据的校验和。Secondary NameNode(2nn):用来监控...
2019-06-06 14:47:20 4467 3
原创 Hadoop简介
大数据概论大数据一般指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察观察力和流程优化能力的海量、高增长和多样化的信息资产。主要为了解决海量数据的存储和海量数据的分析计算问题特点1.大量:截至目前有些企业的数据量已经为EB量级了2.高速:这是大数据区别于传统数据挖掘的最显著特征,根据IDC报告显示到2020年全球...
2019-06-06 14:32:24 294
原创 Linux下MongoDB安装和配置详解
安装配置参考网址如下https://www.cnblogs.com/pfnie/articles/6759105.html
2019-02-21 09:26:54 604
原创 jupyter notebook在linux下安装,并实现远程登陆
jupyter notebook在linux下安装,并实现远程登陆安装Anaconda首先安装Anaconda按照官网指引即可完成本地安装懒得看官网往下看首先进行下载 Anaconda installer for Linux.编写时Anaconda版本已经支持到Python3.7(请自行安装)下载完成后可以进行MD5或SHA-256验证md5sum /path/filen...
2019-02-18 15:10:44 2275
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人