脚气水蟑螂药-CSDN博客

原创 Hive面试题

答：MapReduce是一个基于集群的计算平台，是一个简化分布式编程的计算框架，是一个将分布式计算抽象为Map和Reduce两个阶段的编程模型。

2023-09-18 15:17:32 242

本文根据flink官方提供的测试方法进行编写，重点在于展示如何实现Flink任务的单元测试。测试是每个软件开发过程中不可或缺的一部分，单元测试的好处有很多，比如：确保单个方法正常运行；如果修改了方法代码，只需确保其对应的单元测试通过；测试代码本身就可以作为示例代码；可以自动化运行所有的测试并获得分析报告。除上述好处之外，其本身也是规范化流程的一部分。那咱废话不多说，进入正题测试用户自定义函数对无状态、无时间限制的UDF进行单元测试我们以两个无状态的MapFunction和FlatM

2022-05-10 18:39:23 2747 2

原创 IDEA调试Flink任务FAQ

自己写着玩的时候遇到的问题在此整理一下，要能捎带手帮各位看官解了惑那真是倍感荣幸，Flink版本1.12.0IDEA调试Flink任务时需要WebUI1.问题描述在idea进行flink任务开发时，希望可以通过web ui查看一些信息2.原因定位在本地调试的时候时通过StreamExecutionEnvironment.createLocalEnvironment()创建执行时上下文，该方法未启动 web monitoring UI，需要通过createLocalEnvironmentWithWe

2022-05-08 17:22:37 1928

原创 Flink任务通过RoaringBitmap实现去重

背景日常开发中，经常会有一些场景需要进行实时去重，实现方式多种多样，各有利弊，关键在于如何结合自己的业务场景选择适合自己的方式，咱今主要讨论如何通过RoaringBitmap实现实时去重。先来模拟一个简单的业务场景需求：实时计算每个账户累计消费金额，通过累计消费金额触发后续动作，务必保证结果准确条件：数据源为kafka中的binlog日志账户id和订单id均为bitint类型，金额为int类型采集端发送到kafka中的binlog保证at-least-once结果存储在kv存储中流程

2021-10-03 09:51:26 1794

原创 Debezium FAQ

部署故障生成任务失败创建任务捕获PostgreSQL中数据，创建任务失败# curl -s http://127.0.0.1:8083/connectors/dbz-capture-pg/status{ "name":"dbz-capture-pg", "connector":{ "state":"RUNNING", "worker_id":"127.0.0.1:8083" }, "tasks":[ {

2020-10-27 17:22:11 1132

原创 Atlas RSET API使用

Atlas REST API官方手册1.DiscoveryREST1.1GET /v2/search/attribute1.2GET /v2/search/basicnametypedescriptionconstraintsclassificationquerylimit the result to only entities tagged with the given classification or or its sub-typesexcludeDelet

2020-10-27 11:36:12 1618

原创 Apache Atlas部署

基于原生集群进行部署1.Solr集群部署[root@testkafka-01 bin]# ./solr start -c -z testkafka-01:2181,testkafka-02:2181,testkafka-03:2181 -p 8983 -force[root@testkafka-01 bin]# /opt/software/solr-7.5.0/bin/solr create -c vertex_index -d /opt/software/atlas-1.2.0/conf/solr

2020-10-27 11:35:55 974

原创通过Kafka向Atlas中写入数据

在hive中创建数据库，并观察kafka中两个Atlas的topic内的数据创建数据库hive> create database test;OKTime taken: 0.253 secondsATLAS_ENTITIESTopic的内容[root@testkafka-01 bin]# ./kafka-console-consumer.sh --bootstrap-server testkafka-01:9092 --topic ATLAS_ENTITIES{"version":{"v

2020-10-27 11:35:10 1528 2

原创 CentOS部署Presto

下载presto官方下载地址上传并解压tar -zxf presto-server-0.241.tar.gz -C /opt/software/cd /opt/software#名字有点长，改一下目录名的mv presto-server-0.241 presto-0.241安装数据目录# 创建一个data目录，官方建议创建在安装目录外# Presto needs a data directory for storing logs, etc. We recommend creating

2020-09-25 14:07:55 279

原创 Quicksql部署

根据官方文档结合自己部署过程整理配置依赖环境Quicksql部署非常简单，首先需要确保环境预置完整，依赖的环境有：Java>=1.8Spark>=2.2(必选，未来作为可选)Flink>=1.9(可选)当前的Quicksql对Flink的支持并不完善，还需要进行二次开发，部署演示的示例基于Spark-2.4.6进行配置qsql下载并解压二进制安装包，下载地址：https://github.com/Qihoo360/Quicksql/releases，根据自己选择版本进行

2020-07-26 16:50:20 1160 4

原创 Kafka集群部署(含开机自启动)

Zookeeper集群部署Kafka集群部署配置ZK开机自启动配置Kafka开机自启动

2020-07-06 15:49:18 1247

原创 Hadoop平台基础环境准备

添加主机映射集群中每个节点都需要添加主机映射[root@cdh-cluster-02 ~]# vim /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain6#在此处添加集群所有节点的主机映射10.90.0.103 C

2020-06-29 15:31:16 254

原创 Mysql元数据导入Apache Atlas

通过Rest API实现Mysql元数据写入Apache Atlas创建数据源实例{ "entity":{ "typeName":"rdbms_instance", "attributes":{ "qualifiedName":"192.168.2.11@mysql", "name":"192.168.2.11@mysql", "rdbms_type":"MYSQL",

2020-06-29 10:34:43 5786 28

原创 Apache Atlas部署FAQ

Apache Atlas部署FAQAtlas部署问题Atlas启动报错(zookeeper启动失败导致)1.问题描述2.原因定位3.解决方法Atlas启动报错(solr启动失败导致)1.问题描述2.原因定位3.解决方法Atlas启动报错(HBase中没有Column)1.问题描述2.原因定位3.解决方法Atlas import-hive.sh报错1.问题描述2.原因定位3.解决方法Atlas部署问题Atlas启动报错(zookeeper启动失败导致)通过Atlas内嵌HBase和Solr启动Atlas

2020-05-21 15:18:57 3475 5

fan_yi_bo的博客