- 博客(75)
- 资源 (7)
- 收藏
- 关注
原创 Flink使用(一) Streaming API处理有界流
前提:目前,Flink版本支持,批流处理使用一套API完成。即,使用DataStreamAPI既能处理流数据,又能处理批数据(有界流)。如何使用DataStream API处理数据,并且以BATCH的方式运行呢?方式一:在程序中指定运行模式(不推荐,调试可以): env.setRuntimeMode(RuntimeExecutionMode.BATCH);方式二:提交任务时,使用bin/flink/run -Dexecution.runtime-mode.
2022-05-02 13:20:43 2451
原创 Flink Table API 与 SQL概念(一)
重点:table api、sql api 可以与flink datastream api进行无缝切换 下图是flink 所有api的抽象级别。dataSet API概念会见见淡化,开发中不要使用DataStream 和 Table 之间的转换(在 StreamTableEnvironment 的情况下)概览(Overview)Apache Flink 具有两个关系 API - Table API 和 SQL - 用于统一流和批处理。 Table API 是用于 Java、Scal.
2022-04-30 19:06:47 3225
原创 Flink与Hive结合的概念相关(一)
关键点:Flink与Hive结合使用,使用的是Flink引擎作为查询引擎 可以使用Flink的STREAMING 模式从 Hive 读取数据,作为一个解耦写入hive的查询方式使用 HiveCatalog,Apache Flink 可用于 Apache Hive Tables 的统一 BATCH 和 STREAM 处理。 这意味着 Flink 可以用作 Hive 批处理引擎的性能更高的替代品,或者连续读写 Hive 表中的数据以支持实时数据仓库应用程序。读取Flink 支持..
2022-04-13 22:26:34 4116 1
翻译 Grafana-创建仪表板的Best实践
本页概述了创建Grafana仪表板时要遵循的一些最佳实践。Best practices for creating dashboards | Grafana Labs在你开始创建仪表盘之前以下是在创建仪表板之前需要考虑的一些原则。仪表板应该讲述一个故事或回答一个问题你想用你的仪表盘讲什么故事? 尝试创建数据的逻辑顺序,例如从大到小或从一般到特定。此仪表板的目标是什么?(提示:如果仪表板没有目标,那么问问自己是否真的需要仪表板。) 保持你的图表简单,集中精...
2021-11-29 22:25:35 627
翻译 在Grafana中使用Elasticsearch
文章参考:Elasticsearch | Grafana LabsGrafana 附带对 Elasticsearch 的高级支持。 您可以执行多种类型的简单或复杂的 Elasticsearch 查询来可视化存储在 Elasticsearch 中的日志或指标。 您还可以使用存储在 Elasticsearch 中的日志事件来注释您的图表。添加数据源1. 单击顶部标题中的 Grafana 图标打开侧边菜单。2. 在 Dashboards 链接下的侧边菜单中,您应该找到一个名为 Data Sou.
2021-11-26 22:33:14 14762
翻译 Flink-Application Development-Project Configuration
Project Configuration | Apache Flink每个 Flink 应用程序都依赖于一组 Flink 库。 至少,应用程序依赖于 Flink API。 许多应用程序还依赖于某些连接器库(如 Kafka、Cassandra 等)。 在运行 Flink 应用程序时(无论是在分布式部署中,还是在 IDE 中进行测试),Flink 运行时库也必须可用。Flink 核心和应用程序依赖与大多数运行用户定义应用程序的系统一样,Flink 中有两大类依赖项和库:Flink 核心依赖.
2021-11-17 22:40:59 142
原创 Grafana配置es数据源
ES版本:elasticsearch-7.15.2Grafana版本:grafana-8.1.2Mac安装ES安装es参考Install Elasticsearch from archive on Linux or MacOS | Elasticsearch Guide [7.15] | Elastic建议:指定data和logs目录启动cd elasticsearch-7.15.2;./bin/elasticsearch -d -p pid验证curl h.
2021-11-11 15:04:34 6887
原创 promethes query api查询vm数据
VictoriaMetrics 支持来自 Prometheus 查询 API 的以下处理程序:/api/v1/query /api/v1/query_range /api/v1/series /api/v1/labels /api/v1/label/…/values /api/v1/status/tsdb. Seethese docsfor details. /api/v1/targets- seethese docsfor more details.数据源查看vm...
2021-10-20 21:56:26 3027
翻译 vm时序数据库-导入数据
如何以vm原生格式导入数据虽然最高效,但是当前未完善。如何以 JSON 行格式导入数据导入通过 /api/v1/export 获取的数据的示例:# Export the data from <source-victoriametrics>:curl http://source-victoriametrics:8428/api/v1/export -d 'match={__name__!=""}' > exported_data.jsonl# Import t.
2021-10-19 15:36:17 1432
原创 Flink与vm时序数据库结合(一)
通过自定义Flink的Sink类,实现将数据写入vm时序数据库。Flink代码主函数入口package example;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import java.util.ArrayList;import java.util..
2021-10-17 22:50:27 798
转载 数据湖(一)
计算引擎之下、存储之上的新技术。如何定义这类新技术?简单地说,这类新技术是介于上层计算引擎和底层存储格式之间的一个中间层,我们可以把它定义成一种“数据组织格式”,Iceberg 将其称之为“表格式”也是表达类似的含义。它与底层的存储格式(比如 ORC、Parquet 之类的列式存储格式)最大的区别是,它并不定义数据存储方式,而是定义了数据、元数据的组织方式,向上提供统一的“表”的语义。它构建在数据存储格式之上,其底层的数据存储仍然使用 Parquet、ORC 等进行存储。关键点.
2021-10-17 14:59:51 99
原创 mongodb入门(一)
MongoDB安装mac安装,tgz方式mac安装,tgz方式(Install MongoDB Community on macOS using .tgz Tarball)https://docs.mongodb.com/manual/tutorial/install-mongodb-on-os-x-tarball/软件下载https://www.mongodb.com/try/download/communitymac安装, brew方式brew tap mongodb
2021-10-17 11:28:38 277
原创 vm时序数据库入门(一)
安装victoriametricsdocker run -it --name vm -v /Users/baozhiwang/data/vm:/victoria-metrics-data -p 8428:8428 victoriametrics/victoria-metrics启动后,查看运行参数http://localhost:8428/metricshttp://localhost:8428/debug/pprof/安装vmagentdocker pull victoria
2021-10-15 23:02:43 1889
原创 vmagent入门(一)
安装vmagentdocker pull victoriametrics/vmagent启动vmagentdocker run victoriametrics/vmagent -remoteWrite.url=https://victoria-metrics-host:8428/api/v1/write查看vmagent的help命令docker run victoriametrics/vmagent -help查看vmagent的容器进入vmagent容器中..
2021-10-15 22:28:51 4821 1
原创 influxdb入门(一)
mac安装 influxdb 2.0.8brew install influxdb启动brew services start influxdb查看日志目录/usr/local/var/log/influxdb2配置首次访问http://localhost:8086/设置用户名root,密码root8888organization: galaxybucket: flink通过influxdb java client写入influxdb页面里面有详细...
2021-10-15 16:47:28 1306
原创 grafana读取mysql数据源(一)
创建Mysql Dockerdocker run --name some-mysql -e MYSQL_ROOT_PASSWORD=admin -p:3306:3306 -d mysql:8.0.26进入容器中的mysqldocker exec -it some-mysql bashmysql -h localhost -u root -padmin创建grafana可以读取的mysql数据源create database grafana;CREATE USER 'gr
2021-10-11 18:41:38 4006
原创 grafana读取vm时序数据库数据
1. 通过influxdb的组件Telegraf,直接写入数据到vm时序数据库中(vm支持influxdb协议写入)2.通过grafana读取vm时序数据库,以prometheus协议读取vm时序数据库。3.vm可以作为prometheus时序数据的长久存储。数据流过程为首先,启动vm时序数据库首次启动会拉取最新vm镜像docker run -it --name vm -v /Users/admin/local_dir/victoria-metrics/victoria.
2021-10-09 22:22:54 1545
原创 Grafana live与telegraf结合使用
如果您的目标是高频更新发送,那么您可能需要使用 Telegraf 的 WebSocket 输出插件(在 Telegraf v1.19.0 中引入)而不是使用 HTTP 输出插件。WebSocket 避免在来自 Telegraf 的每个请求上运行所有 Grafana HTTP 中间件,从而显着降低 Grafana 后端 CPU 使用率。在grafana中生成 api key(使用admin role)eyJrIjoiS3UyOEhVcW1oUmFPVlNkYktkT2swTWJHUEhJUnh.
2021-10-09 16:03:52 684
原创 开源组件梳理
Arthas是Alibaba开源的Java诊断工具,深受开发者喜爱。bahirApache Bahir 为多个分布式分析平台提供扩展,通过各种流连接器和 SQL 数据源扩展其范围。http://bahir.apache.org/mapdbJava较快的数据库(堆外或磁盘)jvm-sandboxGitHub - alibaba/jvm-sandbox: Real - time non-invasive AOP framework container based
2021-10-09 15:57:15 549
原创 prometheus入门(一)
文档参考快速开始 · Prometheus 中文文档下载prometheusDownload | Prometheus对于于macos,下载prometheus-2.30.3.darwin-amd64.tar.gz版本./prometheus --config.file=prometheus.ymlmac执行上面命令可能遇到的问题解决 MAC 无法打开“***”,因为无法验证开发者_lightserver.cn-CSDN博客_无法验证开发者...
2021-10-09 15:21:48 213
翻译 telegraf介绍
Telegraf 是开源服务器代理,可帮助您从堆栈、传感器和系统中收集指标。什么是telegraf?Telegraf 是一个插件驱动的服务器代理,用于从数据库、系统和 IoT 传感器收集和发送指标和事件。Telegraf 是用 Go 编写的,可以编译成一个没有外部依赖关系的二进制文件,并且需要非常小的内存占用。为什么要使用 Telegraf?收集和发送各种数据:数据库:连接到 MongoDB、MySQL、Redis 等数据源以收集和发送指标。 系统:从现代云平台.
2021-10-04 16:53:15 11718
原创 Mac新电脑安装oh my zsh
安装HomeBrew&wget/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" brew install wget 参考https://www.cyberciti.biz/faq/howto-install-wget-om-mac-os-x-mountain-lion-mavericks-snow-leopard/安装“.
2021-02-19 21:47:13 407
转载 10分钟快速上手飞桨(PaddlePaddle)
Paddle版本:2.0.0rcPython版本:python3运行方式:python3命令行界面,非分布式方式原文地址:https://www.paddlepaddle.org.cn/documentation/docs/zh/2.0-rc/guides/02_paddle2.0_develop/01_quick_start_cn.html1. 安装飞桨¶如果您已经安装好飞桨那么可以跳过此步骤。我们针对用户提供了一个方便易用的安装引导页面,您可以通过选择自己的系统和软件版本来获取对应的安装命.
2020-11-16 19:50:30 11585 2
转载 如何在Docker中运行PaddleServing
如何在Docker中运行PaddleServing环境Python 2.7.5该文档以Python2为例展示如何在Docker中运行Paddle Serving,您也可以通过将python更换成python3来用Python3运行相关命令。CPU版本获取镜像docker pull hub.baidubce.com/paddlepaddle/serving:latest创建容器并进入docker run -p 9292:9292 --name test -dit hub.baidubce.c
2020-11-10 09:56:11 1342
翻译 Flink的基于Table API实现实时报表
原文地址: https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/try-flink/table_api.html代码示例:Flink-playgrounds 的 table-walkthrough本地代码:/Users/xxxx/local_dir/yyyy/flink-playgrounds/operations-playground/table-walkthroughtable-walkthrough工程带来的意义:.
2020-10-19 19:35:31 1458
原创 根据ip获得省市信息
根据输入ip,使用二分法获得ip对应的省市信息。处理掉无效数据后,数据量大小不到20MB,使用一个MAP,一个SET,占用内存不多,可以作为一个接口服务使用。输入ip地址,输出ip地址对应的省市。内容格式如下: IP开始 IP结束 国家 省 市 区县 区域Code 代码如下:/** * * * 根据输入ip,使用二..
2020-09-28 18:52:37 1406
原创 Redis单例实现连接池工具类
jedisPool依赖apache-commons-pool.jar包JedisPoolUtil代码:package com.atguigu.redis.test; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoolConfig; public class JedisPoolUtil { priv
2020-09-24 18:59:20 492
转载 深入分析CAS(乐观锁)
什么是CAS(1)CAS(compare and swap) 比较并替换,比较和替换是线程并发算法时用到的一种技术(2)CAS是原子操作,保证并发安全,而不是保证并发同步(3)CAS是CPU的一个指令(4)CAS是非阻塞的、轻量级的乐观锁为什么说CAS是乐观锁乐观锁,严格来说并不是锁,通过原子性来保证数据的同步,比如说数据库的乐观锁,通过版本控制来实现等,所以CAS不会保证线程同步。乐观的认为在数据更新期间没有其他线程影响CAS原理CAS(compare and swa...
2020-09-24 10:45:14 546
原创 Hadoop常用命令
设置hdfs文件的副本为2hdfs dfs -setrep 2 -w /path可以使用正则匹配删除hdfs文件hadoop fs -rm -r /path清空hadoop回收站hdfs dfs -expunge
2020-09-23 16:00:54 196
原创 Hive统计最近七天内连续登陆3天的用户数量
需求:统计最近七天内连续登陆3天的用户数量基础数据:uid为1的用户在‘2020-09-18’号没有登陆。val df = Seq( ("2020-09-21",1), ("2020-09-20",1), ("2020-09-19",1), ("2020-09-17",1), ("2020-09-16",1), ("2020-09-15",1), ("2020-09-20",2), ("2020-09-19",2), ("2020-09-20",3),.
2020-09-21 17:57:06 10875
原创 利用spark sql生成json格式的列
导读:利用spark sql函数,将多行数据转化为一行,并且将group by后的某些字段拼接成为json字符串。最终将数据存入redis中。假设hive表原始数据如下: day area playNum 20200808 "南京" 888 20200808 "苏州" 999 20200809 "常州" 999读取原始数据,声明临时表,编写sql,按da.
2020-09-18 17:24:55 3103 1
Lombok 看这篇就够了
2019-12-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人