- 博客(15)
- 收藏
- 关注
原创 Hive面试题
答:MapReduce是一个基于集群的计算平台,是一个简化分布式编程的计算框架,是一个将分布式计算抽象为Map和Reduce两个阶段的编程模型。
2023-09-18 15:17:32 242
原创 Flink单元测试用法讲解
本文根据flink官方提供的测试方法进行编写,重点在于展示如何实现Flink任务的单元测试。测试是每个软件开发过程中不可或缺的一部分,单元测试的好处有很多,比如:确保单个方法正常运行;如果修改了方法代码,只需确保其对应的单元测试通过;测试代码本身就可以作为示例代码;可以自动化运行所有的测试并获得分析报告。除上述好处之外,其本身也是规范化流程的一部分。那咱废话不多说,进入正题测试用户自定义函数对无状态、无时间限制的UDF进行单元测试我们以两个无状态的MapFunction和FlatM
2022-05-10 18:39:23 2747 2
原创 IDEA调试Flink任务FAQ
自己写着玩的时候遇到的问题在此整理一下,要能捎带手帮各位看官解了惑那真是倍感荣幸,Flink版本1.12.0IDEA调试Flink任务时需要WebUI1.问题描述在idea进行flink任务开发时,希望可以通过web ui查看一些信息2.原因定位在本地调试的时候时通过StreamExecutionEnvironment.createLocalEnvironment()创建执行时上下文,该方法未启动 web monitoring UI,需要通过createLocalEnvironmentWithWe
2022-05-08 17:22:37 1928
原创 Flink任务通过RoaringBitmap实现去重
背景日常开发中,经常会有一些场景需要进行实时去重,实现方式多种多样,各有利弊,关键在于如何结合自己的业务场景选择适合自己的方式,咱今主要讨论如何通过RoaringBitmap实现实时去重。先来模拟一个简单的业务场景需求:实时计算每个账户累计消费金额,通过累计消费金额触发后续动作,务必保证结果准确条件:数据源为kafka中的binlog日志账户id和订单id均为bitint类型,金额为int类型采集端发送到kafka中的binlog保证at-least-once结果存储在kv存储中流程
2021-10-03 09:51:26 1794
原创 Debezium FAQ
部署故障生成任务失败创建任务捕获PostgreSQL中数据,创建任务失败# curl -s http://127.0.0.1:8083/connectors/dbz-capture-pg/status{ "name":"dbz-capture-pg", "connector":{ "state":"RUNNING", "worker_id":"127.0.0.1:8083" }, "tasks":[ {
2020-10-27 17:22:11 1132
原创 Atlas RSET API使用
Atlas REST API官方手册1.DiscoveryREST1.1GET /v2/search/attribute1.2GET /v2/search/basicnametypedescriptionconstraintsclassificationquerylimit the result to only entities tagged with the given classification or or its sub-typesexcludeDelet
2020-10-27 11:36:12 1618
原创 Apache Atlas部署
基于原生集群进行部署1.Solr集群部署[root@testkafka-01 bin]# ./solr start -c -z testkafka-01:2181,testkafka-02:2181,testkafka-03:2181 -p 8983 -force[root@testkafka-01 bin]# /opt/software/solr-7.5.0/bin/solr create -c vertex_index -d /opt/software/atlas-1.2.0/conf/solr
2020-10-27 11:35:55 974
原创 通过Kafka向Atlas中写入数据
在hive中创建数据库,并观察kafka中两个Atlas的topic内的数据创建数据库hive> create database test;OKTime taken: 0.253 secondsATLAS_ENTITIESTopic的内容[root@testkafka-01 bin]# ./kafka-console-consumer.sh --bootstrap-server testkafka-01:9092 --topic ATLAS_ENTITIES{"version":{"v
2020-10-27 11:35:10 1528 2
原创 CentOS部署Presto
下载presto官方下载地址上传并解压tar -zxf presto-server-0.241.tar.gz -C /opt/software/cd /opt/software#名字有点长,改一下目录名的mv presto-server-0.241 presto-0.241安装数据目录# 创建一个data目录,官方建议创建在安装目录外# Presto needs a data directory for storing logs, etc. We recommend creating
2020-09-25 14:07:55 279
原创 Quicksql部署
根据官方文档结合自己部署过程整理配置依赖环境Quicksql部署非常简单,首先需要确保环境预置完整,依赖的环境有:Java>=1.8Spark>=2.2(必选,未来作为可选)Flink>=1.9(可选)当前的Quicksql对Flink的支持并不完善,还需要进行二次开发,部署演示的示例基于Spark-2.4.6进行配置qsql下载并解压二进制安装包,下载地址:https://github.com/Qihoo360/Quicksql/releases,根据自己选择版本进行
2020-07-26 16:50:20 1160 4
原创 Hadoop平台基础环境准备
添加主机映射集群中每个节点都需要添加主机映射[root@cdh-cluster-02 ~]# vim /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain6#在此处添加集群所有节点的主机映射10.90.0.103 C
2020-06-29 15:31:16 254
原创 Mysql元数据导入Apache Atlas
通过Rest API实现Mysql元数据写入Apache Atlas创建数据源实例{ "entity":{ "typeName":"rdbms_instance", "attributes":{ "qualifiedName":"192.168.2.11@mysql", "name":"192.168.2.11@mysql", "rdbms_type":"MYSQL",
2020-06-29 10:34:43 5786 28
原创 Apache Atlas部署FAQ
Apache Atlas部署FAQAtlas部署问题Atlas启动报错(zookeeper启动失败导致)1.问题描述2.原因定位3.解决方法Atlas启动报错(solr启动失败导致)1.问题描述2.原因定位3.解决方法Atlas启动报错(HBase中没有Column)1.问题描述2.原因定位3.解决方法Atlas import-hive.sh报错1.问题描述2.原因定位3.解决方法Atlas部署问题Atlas启动报错(zookeeper启动失败导致)通过Atlas内嵌HBase和Solr启动Atlas
2020-05-21 15:18:57 3475 5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人