自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 资源 (26)
  • 收藏
  • 关注

原创 IDEA 2021.3.3最新激活破解教程(可激活至2099年,亲测有效)

intellij激活方法

2024-04-22 18:28:58 9185 15

原创 MidJourney账号免费使用30天

最近研究了一下Midjourney,感觉这个AI大模型生成的图片还是很惊艳的,所以就买了账号,账号可以多人公用,我先记录一下使用心得,在最后会把账号信息公布出来,有想尝试的可以免费使用。仅限我的付费会员。sref即风格一致性/风格迁移,这个功能可以帮助大家在制作的过程中让自己的图片风格保持一致性,将画面统一,轻松复制风格。不在需要复杂关键词、上传我们先要的复刻风格的图片,在输入关键词,选择v6模型开始绘画,就可以得到风格一致的图片。二、 Style Reference 使用介绍。

2024-04-15 17:08:08 248

原创 Insert into select语句把生产服务器炸了,Insert into select非常慢时如何优化

insert into select 的优化方案,当数据量比较大时候可以优化提高效率

2023-09-11 18:45:40 2151

原创 增加 alibaba 的 DataX 对 PG数据库 支持 数组类型同步

datax对pg数据库 增加 数组类型的支持

2023-08-25 18:41:29 432

原创 centos安装最新postgresql数据库(15.3版本),漏洞修复

postgresql数据库漏洞修复 方案, 大的版本升级方案

2023-07-18 10:44:22 359

原创 flink 1.16 在centos安装 部署踩的坑

flink 1.16安装部署遇到的坑

2023-04-11 18:22:18 997 1

原创 FlinkCDC DataStream 同步Postgresql数据库 所有表字段类型通用实现方式

Flinkcdc 实时同步PG数据库表

2022-12-06 16:49:38 2392 3

原创 centos7 安装 superset 2.0 并安装 pg mysql等驱动

superset2.0 的安装 ,注意python的版本,和里面组件的版本

2022-10-21 16:39:17 1018

原创 linux 中毒 挖矿病毒,占用大量cpu,杀毒过程

linux 挖矿病毒 , cpu 占用比较大 lVlgd 进程 , crontab 定时执行

2022-07-19 15:23:12 636

原创 jimureport token 权限验证接入代码

jimureport 接入token验证,全部代码开源

2022-07-12 18:51:04 1147

原创 Prometheus监控预警Flink的任务

flink 的 job 任务 到 prometheus 里监控预警

2022-06-14 15:53:15 663

原创 AI在线诊断,在线问诊项目 第二章 总体架构

学习了架构图分析: 整个项目分为: 在线部分和离线部分 在线部分包括: werobot服务模块, 主要逻辑服务模块, 句子相关模型服务模块, 会话管理模块(redis), 图数据库模块以及规则对话/Unit模块. 离线部分包括: 结构与非结构化数据采集模块, NER模型使用模块, 以及实体审核模型使用模块....

2022-06-06 00:01:46 819

原创 AI在线诊断,在线问诊项目 第一章 1.1

代码已上传至百度网盘1.1 背景介绍学习目标: 了解智能对话系统的相关背景知识. 掌握使用Unit对话API. 什么是智能对话系统? 随着人工智能技术的发展, 聊天机器人, 语音助手等应用在生活中随处可见, 比如百度的小度, 阿里的小蜜, 微软的小冰等等. 其目的在于通过人工智能技术让机器像人类一样能够进行智能回复, 解决现实中的各种问题. 从处理问题的角度来区分, 智能对话系统可分为: 任务导向型: 完成具有明确指向性的任务, 比如预定酒店咨询, 在线问诊等等.

2022-04-13 18:59:41 708

原创 解决 datax 批量同步表功能(灵活控制表的个数)实现

datax 实现批量同步库,批量同步多表任务

2022-04-11 17:10:16 4470 2

原创 centos7 安装tensorflow 报 grpcio 异常 解决方案

1 搭建tensorflow的环境产生的异常记录.cd /root curl -O https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.sh sh Anaconda3-2019.07-Linux-x86_64.sh # 配置~/.bashrc, 添加一行: export PATH=/root/anaconda/bin/:$PATH2, 安装必备组件supervisor, nginxyum install supervi

2022-03-25 18:49:45 4116

原创 Bert 训练模型通过http方式提供服务

bert 训练模型 用 http方式提供服务

2022-03-17 11:38:51 2134

原创 词性含义 中文

关于词性标记动词,形容词(4种):VA,VC,VE,VV1、谓词性形容词:VA谓词性形容词大致上相当于英语中的形容词和中文语法中、文学作品里的静态动词。我们的谓词性形容词包括两类:第一类:没有宾语且能被“很”修饰的谓语。第二类:源自第一类的、通过重叠(如红彤彤)或者通过名词加形容词模式意味着“像N一样A”(如雪白)的谓语。这个类型的谓词性形容词没有宾语,但是有一些不能被“很”修饰,因为这些词的强调意思已经内嵌在词内了。注意:当集合(VA)中的一个词修饰名词但没有用“的”,那么它被标注

2022-01-17 18:14:13 569

原创 stanfordcorenlp4.3 windows安装和使用 词性中文含义

1 电脑应该具备java的环境,并已经配置好java的环境变量2 下载 CoreNLP的包文件下载地址:Overview - CoreNLPNLP Processing In Javahttps://stanfordnlp.github.io/CoreNLP/ 下载语言包:用到那个下载哪个,我下载了中文 和 英文包.下载地址:https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-coren.

2022-01-17 18:02:10 332

原创 如何用java调用 Python开发的算法模型

Hprose是一个高性能的远程对象服务引擎。它是一个现代的、轻量级的、跨语言的、跨平台的、面向对象的、高性能的、远程动态通信中间件。它不仅易于使用,而且功能强大。你只需要一点时间来学习,就可以用它轻松构建跨语言跨平台分布式应用系统。Hprose支持多种编程语言,例如:AAuto Quicker ActionScript ASP C++ Dart Delphi/Free Pascal dotNET(C#, Visual Basic...) Golang Java Jav...

2022-01-11 14:33:16 3134

原创 Intellij 安装 python的包失败问题

用intellij 开发python程序,需要安装python的包,例如下面的import hproseimport fasttextimport jieba但是经常会失败.报错如下Installing packages failed: Installing packages: error occurred. Details...怎么办?可以直接在intellij系统安装就可以然后弹出 Manage Python Packages然后安装就可以了...

2022-01-11 14:25:50 661

原创 StarRocks 报错以及解决方案

1 搭建starRocks 只有一台机器按照官方网站 提供语句 , 创建 明细模型表CREATE TABLE IF NOT EXISTS detail ( event_time DATETIME NOT NULL COMMENT "datetime of event", event_type INT NOT NULL COMMENT "type of event", user_id INT COMMENT "id of user" device_code IN...

2021-12-22 20:41:06 4385 1

原创 azkaban 调用 shell脚本,执行结果不返回

vim /data/azkaban/exec/job/test.shshell脚本内容,#!/bin/bashset -econfigfile="$1"while read -r line ; doeval "$line"done < $configfilepath=dataname=ads_ub_pv_uv_ip_cntsed "s/yesterday/$yesterday/g" /$path/azkaban/exec/job/$name.sql > /$path/.

2021-12-22 18:45:21 2138

原创 clickhouse的存储引擎(4)

clickhouse的存储引擎设计的思想进行了详细解读,本章将向读者完整地介绍clickhouse存储引擎的存储模型及工作机制。文件组织在大部分的DBMS中,数据库本质上就是一个由各种子目录和文件组成的文件目录,clickhouse当然也不例外。clickhouse默认数据目录在/var/lib/clickhouse/data目录中。所有的数据库都会在该目录中创建一个子文件夹。下图展示了clickhouse对数据文件的组织。clickhouse 目录结构每一个数据库都会在clickhou

2021-12-07 14:25:46 351

原创 clickhouse的 LSM算法(3)

前面介绍了clickhouse通过block和lsm来减少磁盘读取的数据量。严谨的逻辑应该时clickhouse通过lsm算法来实现数据预排序,从而减少了磁盘读取的数据量,本章番外主要为读者介绍什么是LSM算法,对LSM算法已经有了解的读者可以跳过本章。LSM算法最早出现在1991年的ACM期刊上,之后其思想在各大大数据存储系统中被广泛使用,例如LevelDB,HBase,Cassandra……LSM算法由于适应的场景不同,存在很多的变体,clickhouse也使用lsm算来实现其预排序的功能,本文将着

2021-12-07 13:56:33 883

原创 clickhouse 优化手段 block + lsm(3)

第二章已经向读者说明了,影响olap查询速度的瓶颈其实是在磁盘。并且也给出了两种具备代表性的优化方案,分别是分布式和列存。之后大部分的olap数据库都采用了类似的架构,那么凭什么clickhouse能从这些olap数据库中脱颖而出摘得桂冠呢?从本章开始,本系列将逐渐向读者展示clickhouse的精妙设计。Block + LSM其实本节的标题也可以换成批处理+预排序。clickhouse通过block的设计来实现批处理,通过lsm算法来实现预排序。我们分别来分析一下,这个组合对查询速度的影响。首

2021-12-07 11:46:42 184

原创 clickhouse 基本原理(2)

在正式开始clickhouse探秘前,我们先抛出一个问题:影响OLAP查询速度的是什么?是优秀的算法么?不可否认,算法对查询性能的影响非常大,但到了现阶段通用的算法基本上已经能够达到很高的性能了。因此,在现阶段,制约着大数据OLAP查询速度的已经不再是算法了。那么这个问题的答案是什么呢?实践是检验整理的唯一标准,我们来做个实验看一下。实验我们写一段代码来模拟数据库执行SELECT max(id) From tbl_a这句语句。如果不考虑前面的sql解析过程,可以简单抽象成两个步骤:从磁盘中读取数

2021-12-07 11:41:41 112

原创 clickhouse 一级索引 原理(3)

clickhouse在处理数据时按照block为单位进行压缩,之后写入磁盘数据文件中。这样可以减少数据量的大小减少磁盘io时间。但是,如果没有索引,则意味着每次查询时都需要读取所有的数据,即使通过压缩已经降低了6.2倍的数据量,这依然要花费很多的磁盘IO。此时索引就出现了,可以再次帮助我们减少查询时需要读取的数据量。在介绍clickhouse的索引之前,我们先回顾一下关系型数据库MySQL中常用的索引技术——B+树。B+树算法超出本文内容,在这里不做深入讨论,我们主要分析下MySQL使用B+树的目的和B

2021-12-07 11:25:35 1069

原创 superset 最新版 地图数据展示问题

superset 最新版本配置 地图的时候,可能不显示数据,具体什么原因呢?superset里的地图用的是 iso3166-2 编码,所以你要想让superset的地图数据展示出来,需要用他的编码保存数据,比如 CN-63 对应的是 河北 等.是因为 superset 的各个省市的编码跟数据库里定义的不一样导致的,查找 地图的geojson文件,路径是在:data/anaconda3/lib/python3.7/site-packages/superset/static/asset.

2021-12-03 15:32:05 1175

原创 ClickHouse 存储层 解析

一、列式存储与行存将每一行的数据连续存储不同,列存将每一列的数据连续存储相比于行式存储,列式存储在分析场景下有着许多优良的特性。1)分析场景中往往需要读大量行但是少数几个列。在行存模式下,数据按行连续存储,所有列的数据都存储在一个block中,不参与计算的列在IO时也要全部读出,读取操作被严重放大。而列存模式下,只需要读取参与计算的列即可,极大的减低了IO cost,加速了查询。2)同一列中的数据属于同一类型,压缩效果显著。列存往往有着高达十倍甚至更高的压缩比,节省了大量的存储空间,降低了存储成本

2021-12-03 15:27:53 306

原创 clickhouse 性能 原理 深度解析

一、clickhouse为什么如此快1)优秀的代码,对性能的极致追求clickhouse是CPP编写的,代码中大量使用了CPP最新的特性来对查询进行加速。2)优秀的执行引擎以及存储引擎clickhouse是基于列式存储的,使用了向量化的执行引擎,利用SIMD指令进行处理加速,同时使用LLVM加快函数编译执行,当然了Presto也大量的使用了这样的特性。3)稀疏索引相比于传统基于HDFS的OLAP引擎,clickhouse不仅有基于分区的过滤,还有基于列级别的稀疏索引,这样在进行条件查

2021-12-03 11:32:26 1993

原创 superset 1.3 地图 汉字 展示,省市编码 ISO3166

superset 最新版本配置中国地图的时候,可能不显示数据,具体什么原因呢?是因为 superset 的各个省市的编码跟数据库里定义的不一样导致的,查找 地图的geojson文件,路径是在:data/anaconda3/lib/python3.7/site-packages/superset/static/assets/下的65d35076af8ab2eac6355ea6f4932f54.geojson 文件,编辑文件发现:{"type": "FeatureCollection".

2021-12-01 18:14:23 481

原创 superset 升级到最新版本 踩到的坑

superset最近的更新颇为频繁,还增加了对es的支持,必须升级一把。升级的方法也比较简单,现在测试环境试验,官方的文档有说明:按照网上提供的 升级教程 升级。cd ~# 停止运行killall -9 gunicorn# 激活虚拟环境. ./superset/bin/activatepip install superset --upgradesuperset db upgradesuperset init我升级完后会报错。superset initINFO:root

2021-11-24 23:18:06 1541

原创 clickhouse 优化

clickhouse 优化 查询 存储 记录

2021-11-17 10:56:45 611

原创 Granfana 的Alert 参数含义

1 Evaluate every 5mFor 5m ,每隔5分钟做一次数据采样,持续 5分钟 违反条件 后会触发发短信或者发邮件操作.2 query(A,5m,now) 从现在往前查询5分钟的数据.3 IS ABOVE 高于某个值 开始报警4 预警有3个状态: OK ,PENGDING,ALTERTING.当Condition判断为True时,预警状态由OK,变为PENDING,如果PENDING状态持续时间超过For所配置的时间,状态由PENDING变为ALERTI...

2021-11-11 18:02:55 449

原创 flink 1.12如何操作clickhouse,kafka sink到clickhouse

flink 1.12是不支持jdbc连接clickhouse的,需要修改flink的源码,我把我2天的研究跑通记录下来供大家参考.查遍了网上所有资料,没有一次能成功的,网上的资料千篇一律.我总结一下踩的坑有这么几点:flink 源码下载 ,源码编译clickhouse 不支持远程连接,需要修改配置文件flink缺失jar包,需要依赖好多包成功图:可以直接展示查询结果:操作步骤:1 flink 源码编译源码下载地址:https://archive.ap...

2021-11-03 16:30:04 430 1

原创 pg数据高级函数解释及使用总结

1 lag函数 lag(value any [, offset integer [, default any ]]) returns value evaluated at the row that is offset rows before the current row within the partition; if there is no such row, instead return default. Both offset and default are e

2021-09-06 14:47:26 787

原创 PG数据库如何快速的查询ip归属地 (2种方法)

第一种方法:数据库种保存的ip地址段,归属地的数据结构如下:要求查询ip地址:66.249.79.3的归属地信息。一,用函数方式。函数原理就是将ip转换成数值,66*256^3+249*256^2+79*256^1+3*256^0 = …………在数据库种执行以下函数:create or replace function inet_aton(ip text) returns int8 as $$declare v int; res int8 := 0; .

2021-08-25 15:25:20 2002

原创 最新 全球 ip地址 归属地 字典表 (202108)

最新 全球 ip地址 归属地 字典表 (202108)

2021-08-19 18:17:13 2345

原创 Flink cdc 读取 kafka json 数据入PG数据库

在日常的开发中,最常用的数据格式是 JSON ,并且有的时候 JSON 的格式是非常复杂的(嵌套的格式),那在 Flink SQL 中进行解析的时候也会相当麻烦一点,下面将会演示如何在 DDL 里面定义 Map、Array、Row 类型的数据,以及在 SQL 里面如何获里面的值数据格式如下:以下数据完全是自己造的,没有任何实际含义{"funcName":"test","data":{"snapshots":[{"content_type":"application/...

2021-06-25 15:44:02 1137 1

原创 PG数据库checkpoint浅析

相关问题引入这里列举几个问题,由此引发我们对 checkpoint 相关机制的思考: 我们日常操作Postgresql 数据库时,很多操作都会触发数据库的 checkpoint 事务(例如启动、关闭数据库,数据库超级管理员显式地执行 checkpoint 命令等)。那到底都有哪些行为或事件会触发 checkpoint 呢? 有些人使用 Postgresql 数据库时,可能会在数据库的 log 日志中发现类似于如下提示: (英文环境)checkpoints are occurring

2021-06-25 15:23:13 382

增加DataX对PG数据库支持数组类型同步 datax-common; plugin-rdbms-util

datax-common ; plugin-rdbms-util

2023-08-25

增加 alibaba 的 DataX 对 PG数据库 支持 数组类型同步

增加 alibaba 的 DataX 对 PG数据库 支持 数组类型同步

2023-08-25

增加 alibaba 的 DataX 对 PG数据库 支持 数组类型同步

增加 alibaba 的 DataX 对 PG数据库 支持 数组类型同步

2023-08-25

flink-connector-clickhouse-1.16.0-SNAPSHOT.jar

flink 和 clickhoues的链接工具包, flink的版本支持到1.16.0以上

2023-04-11

metabase的最新安装包,免费开源的 bi 平台

metabase的最新安装包 , 开源的bi软件组件,比superset好用

2022-03-25

Fasttext 用新闻数据进行模型训练 训练结果库 bin 文件

Fasttext 用新闻数据进行模型训练 训练结果库

2022-01-05

cnews-label.zip

Fasttext 标签数据 集,停用词库 数据集 NLP ,自然语言处理用训练集 labe

2022-01-05

cnews.train.zip

Fasttext 训练集 数据 集 NLP ,自然语言处理用训练集

2022-01-05

cnews.test.zip

FastText做训练测试 据文件包,新闻类型,训练集 NLP

2022-01-05

markdownpad.zip

markdownpad pro 免费版

2021-12-06

flink1.2-clickhouse-sql-依赖包.zip

flink clickhouse sql 依赖包,否则 flink不支持 clickhouse jdbc连接

2021-11-03

flink-connector-jdbc_2.11-1.12.1.jar

flink sql 连接clickhouse,需要修改flink -jdbc-connector 包,我已经编译完成,需要的自行下载

2021-11-03

kuduplus-setup.zip

kudu 客户端

2021-06-09

clickhousereader.7z

reader

2021-04-23

clickhousewriter.zip

clickhouse 插件 writer reader ,要上传到datax的对应的plugin目录下即可

2021-04-23

azkaban3.90_zip.zip

azkaban 安装包,3.9.0 ,亲测有用,如果不知道安装步骤,我后续整理发布上去

2021-04-06

flink-sql-connector-mysql-cdc-1.2.0.jar

flink cdc mysql jar包,2021年最新版

2021-03-05

flink-sql-connector-postgres-cdc-1.2.0.jar

flink cdc postgres 数据同步 jar包,2021年最新版

2021-03-05

hive 驱动包 hive 链接 datagrip的驱动包

hive 驱动包 hive 链接 datagrip的驱动包

2020-12-22

大数据质控流程图.vsdx

数据互联中心 ,北京多家医院大数据互联中心整体解决方案流程图

2019-09-17

大数据流程图.pptx

医疗行业大数据流程图,全新的,真实应用场景,大数据最新的解决方案

2019-09-17

万达大数据平台整体方案设计.docx

这是真实的万达大数据项目方案,给联通一起结合的解决放哪,里面的数据量都是超大的,这个文档非常值

2019-09-17

Camplayer.exe

播放器 专门播放avi视频的,是学习网络视频资源比较好的播放器,非常的小桥,不占用空间。。。。。。。。。。

2017-09-27

Matlab2017 破解版 下载 带破解码 7.6G

Matlab2017 破解版 下载 带破解码 7.6G 百度云盘下载地址,信息可靠,大家尽快下载。试用,不要用做商业用途,仅作为学习研究试用。

2017-09-22

java 版 网页聊天 源码

java版 的 聊天源码,有需要的下载看看 学习学习,有疑问的可以交流

2015-01-07

veloeclipse2.08

veloeclipse2.08 eclipse上用的插件,测试过可以用

2014-09-11

网页 网站美工基础

清华大学的教材,想转行的可以下载看看 学习美工的入门 需要掌握知识

2013-12-25

布隆过滤器 java实现代码

布隆过滤器 源码 java版 /** * This program is free software: you can redistribute it and/or modify * it under the terms of the GNU Lesser General Public License as published by * the Free Software Foundation, either version 3 of the License, or * (at your option) any later version. * * This program is distributed in the hope that it will be useful, * but WITHOUT ANY WARRANTY; without even the implied warranty of * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the * GNU Lesser General Public License for more details. * * You should have received a copy of the GNU Lesser General Public License * along with this program. If not, see . */

2012-06-29

车牌识别程序源码 (java c# phyon)

能解析图像,识别车牌内容,可以支持好几种语言的哦

2010-12-27

java爬虫 获得源码程序

爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码爬虫源码

2010-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除