自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(149)
  • 资源 (1)
  • 收藏
  • 关注

原创 Git开发常用操作

Git checkout -b 本地分支名(与远程分支名相同)Git pull 远程url 远程分支名。Git commit -m “注释”Git push 远程url。#添加本地代码或者文件。#本地文件夹下初始化。

2024-02-27 16:55:07 81

原创 flinkCDC postgresql

package FlinkCDC;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;//配置//https://blog.csdn.net/weixin_41197407/article/details/112655218//配置文件:wal_level

2022-01-20 18:10:30 948

原创 flink学习文档

https://help.aliyun.com/document_detail/313170.htm?spm=a2c4g.11186623.0.0.1be657efZbYb74#concept-2115054https://blog.csdn.net/yang_shibiao/article/details/118400429https://developer.aliyun.com/live/245966?spm=a2c6h.12873622.0.0.80d63c1aFv4HXq

2021-12-30 15:50:28 1038

原创 flinksql mysqlCDC

1、开启binlog修改mysql配置文件log-bin=mysql-binbinlog-format=Rowserver-id=180binlog-do-db=test2、package FlinkCDC;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.EnvironmentSettings;import org.

2021-12-16 15:05:52 727

原创 区分理解Flink水印延迟与窗口允许延迟的概念

https://blog.csdn.net/weixin_39657249/article/details/111759930总结WaterMark 到达之前,窗口在攒数据,不会触发计算。WaterMark 等于 windowEndTime 时,第一次触发窗口计算。WaterMark 到达之后,allowlateness之前,如果来了数据,每条数据都会触发窗口计算。超过了allowlateness之后到达的迟到数据会丢弃。水印用于解决乱序问题保证数据的完整性。而之所以有allowlateness

2021-11-24 10:58:35 1299

原创 Flink算子apply和process区别

1、apply只能用于window之后总结:keyby后可直接map直接输出,也可以timeWindow进行数据范围批量处理,不能调用applytimeWindow返回WindowedStream,WindowedStream后的process,apply方法,是在水印时间大于等于窗口时间才会进行调用的对窗口进行计算的方式process,apply计算的方式一样,都是会得到一批key值相同的数据作者:LeeRich链接:https://juejin.cn/post/684490398490637

2021-11-11 18:25:38 3472 1

原创 k8s常用命令

1、查看podkubectl get pod|grep flink2、进入podkubectl exec -it podname bash1、查看k8s里面的docker的kafka服务[root-device96 ~]# kubectl get pod|grep kafka2、查看k8s里面的docker的kafka日志,如果是flink,是jobmanager的日志[root-device96 ~]# kubectl logs -f kafka-d5f-fct7j3、查看k8s里面的do

2021-11-05 13:59:26 1548

原创 袋鼠云flinksql连接器构建

1、袋鼠云代码地址:https://github.com/DTStack/flinkx/blob/master/docs/connectors/clickhouse/clickhouse-lookup.md源码需要修改:2、flinkx-core被flink-jdbc-base调用,flinkx-core和flink-jdbc-base被每一个连接器调用。3、打包好的链接器和驱动需要放到flink的lib下,flink要重启生效...

2021-11-05 13:52:50 1175

原创 flinksql自定义连接器

1、上阿里云或者github上找代码2、打成jar包3、放在flink安装目录的lib下4、重启flink集群注意:1、lib下的jar包也许会被污染,报错:解决:pom依赖加上 provided2、没有生效的,会报没有生成sink或者语法不对...

2021-09-30 14:18:17 300

原创 Flink的Java版pom文件

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav

2021-09-11 10:32:57 708

原创 Flink分流-Java版

注意:flink1.12不支持split分流//定义分流变量 private static final OutputTag<JSONObject> devFaultAndRuntime = new OutputTag<>("dev_fault_runtime", TypeInformation.of(JSONObject.class)); private static final OutputTag<JSONObject> devLi = new Out

2021-09-11 10:31:54 151

原创 Flink状态后端keyby之后-Java版

说明:keyby分组后的每个分组管理一个自己的状态后端// 富函数初始化状态后端 public static class ValueStateFlatMap extends RichFlatMapFunction<JSONObject,JSONObject> { public transient ValueState<String> preValueFault; @Override public void open(

2021-09-11 10:27:01 461

原创 Flink自定义mysqlsink

仅供参考,还未测试 static class mysqlSink extends RichSinkFunction<JSONObject> { Connection conn =null; PreparedStatement updateStmt=null; PreparedStatement insertStmt=null; @Override public void open(Configuratio

2021-09-11 10:17:04 457

原创 Flink流处理广播变量-java版

总结:其实还是两个数据集的整合操作package waterChuli.flinkDetil;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.state.MapStateDescriptor;import org.apache.flink.api.common.typeinfo.BasicTypeInfo;import org.apache.flink.api.

2021-09-11 10:14:29 478

原创 数据仓库建模

数仓建模指标:事务型指标,存量型指标,复合指标数据层:操作数据层,公共纬度模型层,应用数据层,构建过程1、高层模型,对产出目标,进行维表和事实表进行图形描述2、详细模型,对模型进行数据填充3、验证,再设计4、出文档基本原则1、一致性,字段名等统一2、命名清晰可理解3、高内聚低耦合4、核心模型与扩展模型分离5、公共处理逻辑下沉及单一6、成本无性能平衡纬度设计过程1、确定主纬表2、确定相关纬表3、确定维度属性维度表类型维度表处理方法1、雪花模型的纬度进行反规范化2、拆

2021-08-20 16:31:05 74

原创 git基本使用

本地环境:工作区----add—》暂存区----commit–》本地库,远程仓库:本地库-----push—》远程仓库本地库《-----pull—远程仓库初始化本地仓库,设置签名,克隆远程库git initgit config user.name hukegit config user.email [email protected] remote add origin https://git.xiaoyatong.com/huke/baobiao.gitgit clone https://

2021-05-28 16:53:51 45

原创 spark的使用

1、上传spark的程序jar包2、spark命令,提交任务3、如果任务正常跑,点入yarn的管理页面,点击applicationmaster,进入spark的调度页面,可以看到job、stage的划分、excuter的个数4、如果失败用yarn命令下载日志:yarn logs -applicationId 任务id >logs.txt。查看失败原因。或者点击yarn页面applicationid进入,可看到部分日志...

2021-05-27 17:48:02 311

原创 azkaban

概述1、组件:webserver,excuterserver,mysql2、任务,任务流程3、任务脚本传参${param}4、执行状态邮件5、只支持上传zip包

2021-05-24 12:36:21 55

原创 sqoop1:mysql导入hdfs

mysql导入hdfs注意:要有主键,或者用–split-by 字段sqoop脚本#!/bin/bashsqoop import \--connect jdbc:mysql://ip/xy_test \--username root \--password 123 \--as-textfile \--columns id,anchorId,title,poster,startTime,stopTime,viewsCount,likesCount,barrage,createTime \

2021-04-28 17:36:32 61

原创 spark分区读写mysql

注意:分区字段必须是整型,日期package com.xy.useimport java.sql.{Connection, DriverManager}import java.text.SimpleDateFormatimport java.util.Propertiesimport org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}import scala.collection.

2021-04-28 17:28:46 543

原创 sparksql分区读mongodb写入hdfs

package com.xy.useimport java.net.URLEncoderimport org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{SaveMode, SparkSession}//功能描述/** mongodb表LiveStreamAnchor分区读取,写入hdfs* */object Tohdfs { def main(arg

2021-04-28 17:16:36 401

原创 hive TOP

hive中一般取top n时,row_number(),rank,dense_rank()常用三个函数一、 分区函数Partition By与row_number()、rank()、dense_rank()的用法(获取分组(分区)中前几条记录)a row_number rank dense_rankA 1 1 1C 2 2 2D 3 3 3B

2021-03-10 21:36:48 754

原创 spark调优

https://mp.weixin.qq.com/s/KIoE3ev7XgGGH05kjCX_zQ数据倾斜调优与shuffle调优数据倾斜调优绝大多数task执行得都非常快(数据量小),但个别task执行极慢(数据量大)

2021-02-24 10:07:52 137

原创 python学习网站

http://liao.cpython.org/

2021-02-23 16:01:14 45

原创 多项式拟合求导得拐点

http://liao.cpython.org/scipy17/import numpy as npfrom matplotlib import pyplot as pltfrom scipy.misc import derivativedef ax_bfit(x0, y0, calculate_x, n): # x = symbols('x') x=np.array(x0) y=np.array(y0) calculate_x=np.array(calculate

2021-02-23 15:59:22 438

原创 linux磁盘永久挂载

1.先建这是先建个VG:vgcreate data_vg /dev/sdb2.然后建LV:lvcreate -L 300g -n data01_lv data_vg3.建一个挂载点,即一个目录:mkdir opt/cmnet_syslog4.创建文件系统:mkfs -t xfs /dev/mapper/data_vg-data01_lv5.查看文件结构:blkid6.在/etc/fstab文件中加一行参数:/dev/mapper/data_vg-data01_lv /opt/cmnet_sys

2021-02-22 15:07:34 641

原创 请求time out非网络原因

tcp_tw_recycle和tcp_timestamps导致connect失败问题http://blog.sina.com.cn/s/blog_781b0c850100znjd.html修改了linux的内核配置。/proc/sys/net/ipv4/tcp_tw_recycle 从1修改为0

2021-02-19 14:36:46 48

原创 python3脚本后台执行到指定日志文件

nohup python3 -u get_iptv_node_cdn_5m.py>get_iptv_node_cdn_5m.log>&1 &

2021-01-25 16:11:37 380 1

原创 LOESS与LOWESS

https://blog.csdn.net/pengfuli1980/article/details/80265471?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_baidulandingword-2&spm=1001.2101.3001.4242https://blog.csdn.net/weixin_42199636/article/details/89210506

2021-01-13 10:10:04 619

原创 mysql联表更新

UPDATE student s , class c SET s.class_name='test00',c.stu_name='test00' WHERE s.class_id = c.idupdate yd_before0_rules b,sheet2 s set b.platform_name=s.pname where b.endNeName=s.AS_hostname

2021-01-12 11:22:02 99

原创 python脚本后台执行

输出日志到tt:nohup python -u test.py>tt.log>&1 &

2020-12-23 16:24:36 53

原创 whl下载地址

https://pypi.org/project/matplotlib/3.2.0/#fileshttps://pypi.tuna.tsinghua.edu.cn/simple/

2020-12-22 09:50:20 1016

原创 git常用命令

上传:git:在待上传文件下初始化git initgit status添加文件到预备状态git add .提交的注解git commit -m “告警ivr第一次上传”获取文件状态git status查看分支git branch创建远程分支git remote add origin http://hk@ip:port/r/AlarmView.git上传到主分支git push -u origin master免密登录git config credential.helper

2020-12-03 11:32:46 36

原创 django源码

File “/usr/local/python3/lib/python3.8/site-packages/Django-2.2.11-py3.8.egg/django/db/models/options.py”, line 204, in contribute_to_classself.db_table = truncate_name(self.db_table, connection.ops.max_name_length())File “/usr/local/python3/lib/python3.

2020-12-01 11:44:26 202

原创 windows10软件图标去除小盾牌

https://baijiahao.baidu.com/s?id=1660292143432525720&wfr=spider&for=pc

2020-11-27 16:40:38 495

原创 mysql高并发存在的问题

总结1、高并发的时候,增删改查频繁,容易读到旧数据,导致业务不准确。2、解决办法1:可以用主从,一个读一个写。3、解决办法2:尽量减少读写操作,或者读写时间段隔离时间稍微长些,保证数据的准确性...

2020-11-25 11:28:32 333

原创 mysql状态命令

service mysqld status

2020-11-24 15:29:31 61

原创 mysql delete释放磁盘

https://blog.csdn.net/hyfstyle/article/details/89141208delete操作后使用optimize table table_name 释放磁盘空间,优化表期间会锁定表,所以要在空闲时段执行optimize table ,测试十几个G数据的表执行optimize table 大概20多分钟。...

2020-11-24 15:28:42 149

原创 mysql8安装

https://blog.csdn.net/u011421988/article/details/1072347181.在 /use/local下 创建mysql文件夹 mkdir mysql2.切换到mysql文件夹下 cd mysql3.下载mysql wget https://dev.mysql.com/get/Downloads/MySQL-8.0/mysql-8.0.20-linux-glibc2.12-x86_64.tar.xz 也可以直接在官方下载最新版本 https://dev.m

2020-11-11 12:39:48 64

原创 三维方程拟合

参考:https://blog.csdn.net/Haipai1998/article/details/85345823?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2allfirst_rank_v2~rank_v28-9-85345823.nonecase&utm_term=python%E4%B8%89%E7%BB%B4%E6%95%B0%E6%8D%AE%E6%B1%82%E6%8B%9F%E5%90%88%E6

2020-10-29 21:25:41 524 1

arimaY.zip

测试几天搞出来了,代码包括平稳性测试,acf,pacf,pdq的确定,预测数据,免费送给大家。数据集从csv中抓取,一列数据就行,自定

2020-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除