大数据
文章平均质量分 73
记录了10年来大数据使用中用到的代表性的项目源码,
对开源组件做的优化的源码。
我遇到的大数据组件使用中的一些坑,以及怎么去解决
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
lg4546
这个作者很懒,什么都没留下…
展开
-
MidJourney账号免费使用30天
最近研究了一下Midjourney,感觉这个AI大模型生成的图片还是很惊艳的,所以就买了账号,账号可以多人公用,我先记录一下使用心得,在最后会把账号信息公布出来,有想尝试的可以免费使用。仅限我的付费会员。sref即风格一致性/风格迁移,这个功能可以帮助大家在制作的过程中让自己的图片风格保持一致性,将画面统一,轻松复制风格。不在需要复杂关键词、上传我们先要的复刻风格的图片,在输入关键词,选择v6模型开始绘画,就可以得到风格一致的图片。二、 Style Reference 使用介绍。原创 2024-04-15 17:08:08 · 402 阅读 · 0 评论 -
Insert into select语句把生产服务器炸了,Insert into select非常慢时如何优化
insert into select 的优化方案,当数据量比较大时候可以优化提高效率原创 2023-09-11 18:45:40 · 2621 阅读 · 0 评论 -
增加 alibaba 的 DataX 对 PG数据库 支持 数组类型同步
datax对pg数据库 增加 数组类型的支持原创 2023-08-25 18:41:29 · 568 阅读 · 0 评论 -
centos安装最新postgresql数据库(15.3版本),漏洞修复
postgresql数据库漏洞修复 方案, 大的版本升级方案原创 2023-07-18 10:44:22 · 466 阅读 · 0 评论 -
FlinkCDC DataStream 同步Postgresql数据库 所有表字段类型通用实现方式
Flinkcdc 实时同步PG数据库表原创 2022-12-06 16:49:38 · 2627 阅读 · 3 评论 -
centos7 安装 superset 2.0 并安装 pg mysql等驱动
superset2.0 的安装 ,注意python的版本,和里面组件的版本原创 2022-10-21 16:39:17 · 1518 阅读 · 0 评论 -
linux 中毒 挖矿病毒,占用大量cpu,杀毒过程
linux 挖矿病毒 , cpu 占用比较大 lVlgd 进程 , crontab 定时执行原创 2022-07-19 15:23:12 · 767 阅读 · 0 评论 -
jimureport token 权限验证接入代码
jimureport 接入token验证,全部代码开源原创 2022-07-12 18:51:04 · 1291 阅读 · 0 评论 -
Prometheus监控预警Flink的任务
flink 的 job 任务 到 prometheus 里监控预警原创 2022-06-14 15:53:15 · 718 阅读 · 0 评论 -
解决 datax 批量同步表功能(灵活控制表的个数)实现
datax 实现批量同步库,批量同步多表任务原创 2022-04-11 17:10:16 · 4704 阅读 · 2 评论 -
centos7 安装tensorflow 报 grpcio 异常 解决方案
1 搭建tensorflow的环境产生的异常记录.cd /root curl -O https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.sh sh Anaconda3-2019.07-Linux-x86_64.sh # 配置~/.bashrc, 添加一行: export PATH=/root/anaconda/bin/:$PATH2, 安装必备组件supervisor, nginxyum install supervi原创 2022-03-25 18:49:45 · 4194 阅读 · 0 评论 -
Bert 训练模型通过http方式提供服务
bert 训练模型 用 http方式提供服务原创 2022-03-17 11:38:51 · 2230 阅读 · 0 评论 -
词性含义 中文
关于词性标记动词,形容词(4种):VA,VC,VE,VV1、谓词性形容词:VA谓词性形容词大致上相当于英语中的形容词和中文语法中、文学作品里的静态动词。我们的谓词性形容词包括两类:第一类:没有宾语且能被“很”修饰的谓语。第二类:源自第一类的、通过重叠(如红彤彤)或者通过名词加形容词模式意味着“像N一样A”(如雪白)的谓语。这个类型的谓词性形容词没有宾语,但是有一些不能被“很”修饰,因为这些词的强调意思已经内嵌在词内了。注意:当集合(VA)中的一个词修饰名词但没有用“的”,那么它被标注原创 2022-01-17 18:14:13 · 780 阅读 · 0 评论 -
stanfordcorenlp4.3 windows安装和使用 词性中文含义
1 电脑应该具备java的环境,并已经配置好java的环境变量2 下载 CoreNLP的包文件下载地址:Overview - CoreNLPNLP Processing In Javahttps://stanfordnlp.github.io/CoreNLP/ 下载语言包:用到那个下载哪个,我下载了中文 和 英文包.下载地址:https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-coren.原创 2022-01-17 18:02:10 · 449 阅读 · 0 评论 -
如何用java调用 Python开发的算法模型
Hprose是一个高性能的远程对象服务引擎。它是一个现代的、轻量级的、跨语言的、跨平台的、面向对象的、高性能的、远程动态通信中间件。它不仅易于使用,而且功能强大。你只需要一点时间来学习,就可以用它轻松构建跨语言跨平台分布式应用系统。Hprose支持多种编程语言,例如:AAuto Quicker ActionScript ASP C++ Dart Delphi/Free Pascal dotNET(C#, Visual Basic...) Golang Java Jav...原创 2022-01-11 14:33:16 · 3204 阅读 · 0 评论 -
Intellij 安装 python的包失败问题
用intellij 开发python程序,需要安装python的包,例如下面的import hproseimport fasttextimport jieba但是经常会失败.报错如下Installing packages failed: Installing packages: error occurred. Details...怎么办?可以直接在intellij系统安装就可以然后弹出 Manage Python Packages然后安装就可以了...原创 2022-01-11 14:25:50 · 835 阅读 · 0 评论 -
StarRocks 报错以及解决方案
1 搭建starRocks 只有一台机器按照官方网站 提供语句 , 创建 明细模型表CREATE TABLE IF NOT EXISTS detail ( event_time DATETIME NOT NULL COMMENT "datetime of event", event_type INT NOT NULL COMMENT "type of event", user_id INT COMMENT "id of user" device_code IN...原创 2021-12-22 20:41:06 · 4576 阅读 · 1 评论 -
azkaban 调用 shell脚本,执行结果不返回
vim /data/azkaban/exec/job/test.shshell脚本内容,#!/bin/bashset -econfigfile="$1"while read -r line ; doeval "$line"done < $configfilepath=dataname=ads_ub_pv_uv_ip_cntsed "s/yesterday/$yesterday/g" /$path/azkaban/exec/job/$name.sql > /$path/.原创 2021-12-22 18:45:21 · 2184 阅读 · 0 评论 -
clickhouse的存储引擎(4)
clickhouse的存储引擎设计的思想进行了详细解读,本章将向读者完整地介绍clickhouse存储引擎的存储模型及工作机制。文件组织在大部分的DBMS中,数据库本质上就是一个由各种子目录和文件组成的文件目录,clickhouse当然也不例外。clickhouse默认数据目录在/var/lib/clickhouse/data目录中。所有的数据库都会在该目录中创建一个子文件夹。下图展示了clickhouse对数据文件的组织。clickhouse 目录结构每一个数据库都会在clickhou原创 2021-12-07 14:25:46 · 390 阅读 · 0 评论 -
clickhouse的 LSM算法(3)
前面介绍了clickhouse通过block和lsm来减少磁盘读取的数据量。严谨的逻辑应该时clickhouse通过lsm算法来实现数据预排序,从而减少了磁盘读取的数据量,本章番外主要为读者介绍什么是LSM算法,对LSM算法已经有了解的读者可以跳过本章。LSM算法最早出现在1991年的ACM期刊上,之后其思想在各大大数据存储系统中被广泛使用,例如LevelDB,HBase,Cassandra……LSM算法由于适应的场景不同,存在很多的变体,clickhouse也使用lsm算来实现其预排序的功能,本文将着原创 2021-12-07 13:56:33 · 912 阅读 · 0 评论 -
clickhouse 优化手段 block + lsm(3)
第二章已经向读者说明了,影响olap查询速度的瓶颈其实是在磁盘。并且也给出了两种具备代表性的优化方案,分别是分布式和列存。之后大部分的olap数据库都采用了类似的架构,那么凭什么clickhouse能从这些olap数据库中脱颖而出摘得桂冠呢?从本章开始,本系列将逐渐向读者展示clickhouse的精妙设计。Block + LSM其实本节的标题也可以换成批处理+预排序。clickhouse通过block的设计来实现批处理,通过lsm算法来实现预排序。我们分别来分析一下,这个组合对查询速度的影响。首原创 2021-12-07 11:46:42 · 208 阅读 · 0 评论 -
clickhouse 基本原理(2)
在正式开始clickhouse探秘前,我们先抛出一个问题:影响OLAP查询速度的是什么?是优秀的算法么?不可否认,算法对查询性能的影响非常大,但到了现阶段通用的算法基本上已经能够达到很高的性能了。因此,在现阶段,制约着大数据OLAP查询速度的已经不再是算法了。那么这个问题的答案是什么呢?实践是检验整理的唯一标准,我们来做个实验看一下。实验我们写一段代码来模拟数据库执行SELECT max(id) From tbl_a这句语句。如果不考虑前面的sql解析过程,可以简单抽象成两个步骤:从磁盘中读取数原创 2021-12-07 11:41:41 · 133 阅读 · 0 评论 -
clickhouse 一级索引 原理(3)
clickhouse在处理数据时按照block为单位进行压缩,之后写入磁盘数据文件中。这样可以减少数据量的大小减少磁盘io时间。但是,如果没有索引,则意味着每次查询时都需要读取所有的数据,即使通过压缩已经降低了6.2倍的数据量,这依然要花费很多的磁盘IO。此时索引就出现了,可以再次帮助我们减少查询时需要读取的数据量。在介绍clickhouse的索引之前,我们先回顾一下关系型数据库MySQL中常用的索引技术——B+树。B+树算法超出本文内容,在这里不做深入讨论,我们主要分析下MySQL使用B+树的目的和B原创 2021-12-07 11:25:35 · 1102 阅读 · 0 评论 -
superset 最新版 地图数据展示问题
superset 最新版本配置 地图的时候,可能不显示数据,具体什么原因呢?superset里的地图用的是 iso3166-2 编码,所以你要想让superset的地图数据展示出来,需要用他的编码保存数据,比如 CN-63 对应的是 河北 等.是因为 superset 的各个省市的编码跟数据库里定义的不一样导致的,查找 地图的geojson文件,路径是在:data/anaconda3/lib/python3.7/site-packages/superset/static/asset.原创 2021-12-03 15:32:05 · 1306 阅读 · 0 评论 -
ClickHouse 存储层 解析
一、列式存储与行存将每一行的数据连续存储不同,列存将每一列的数据连续存储相比于行式存储,列式存储在分析场景下有着许多优良的特性。1)分析场景中往往需要读大量行但是少数几个列。在行存模式下,数据按行连续存储,所有列的数据都存储在一个block中,不参与计算的列在IO时也要全部读出,读取操作被严重放大。而列存模式下,只需要读取参与计算的列即可,极大的减低了IO cost,加速了查询。2)同一列中的数据属于同一类型,压缩效果显著。列存往往有着高达十倍甚至更高的压缩比,节省了大量的存储空间,降低了存储成本原创 2021-12-03 15:27:53 · 337 阅读 · 0 评论 -
clickhouse 性能 原理 深度解析
一、clickhouse为什么如此快1)优秀的代码,对性能的极致追求clickhouse是CPP编写的,代码中大量使用了CPP最新的特性来对查询进行加速。2)优秀的执行引擎以及存储引擎clickhouse是基于列式存储的,使用了向量化的执行引擎,利用SIMD指令进行处理加速,同时使用LLVM加快函数编译执行,当然了Presto也大量的使用了这样的特性。3)稀疏索引相比于传统基于HDFS的OLAP引擎,clickhouse不仅有基于分区的过滤,还有基于列级别的稀疏索引,这样在进行条件查原创 2021-12-03 11:32:26 · 2049 阅读 · 0 评论 -
superset 1.3 地图 汉字 展示,省市编码 ISO3166
superset 最新版本配置中国地图的时候,可能不显示数据,具体什么原因呢?是因为 superset 的各个省市的编码跟数据库里定义的不一样导致的,查找 地图的geojson文件,路径是在:data/anaconda3/lib/python3.7/site-packages/superset/static/assets/下的65d35076af8ab2eac6355ea6f4932f54.geojson 文件,编辑文件发现:{"type": "FeatureCollection".原创 2021-12-01 18:14:23 · 526 阅读 · 0 评论 -
superset 升级到最新版本 踩到的坑
superset最近的更新颇为频繁,还增加了对es的支持,必须升级一把。升级的方法也比较简单,现在测试环境试验,官方的文档有说明:按照网上提供的 升级教程 升级。cd ~# 停止运行killall -9 gunicorn# 激活虚拟环境. ./superset/bin/activatepip install superset --upgradesuperset db upgradesuperset init我升级完后会报错。superset initINFO:root原创 2021-11-24 23:18:06 · 1654 阅读 · 0 评论 -
clickhouse 优化
clickhouse 优化 查询 存储 记录原创 2021-11-17 10:56:45 · 646 阅读 · 0 评论 -
Granfana 的Alert 参数含义
1 Evaluate every 5mFor 5m ,每隔5分钟做一次数据采样,持续 5分钟 违反条件 后会触发发短信或者发邮件操作.2 query(A,5m,now) 从现在往前查询5分钟的数据.3 IS ABOVE 高于某个值 开始报警4 预警有3个状态: OK ,PENGDING,ALTERTING.当Condition判断为True时,预警状态由OK,变为PENDING,如果PENDING状态持续时间超过For所配置的时间,状态由PENDING变为ALERTI...原创 2021-11-11 18:02:55 · 500 阅读 · 0 评论 -
flink 1.12如何操作clickhouse,kafka sink到clickhouse
flink 1.12是不支持jdbc连接clickhouse的,需要修改flink的源码,我把我2天的研究跑通记录下来供大家参考.查遍了网上所有资料,没有一次能成功的,网上的资料千篇一律.我总结一下踩的坑有这么几点:flink 源码下载 ,源码编译clickhouse 不支持远程连接,需要修改配置文件flink缺失jar包,需要依赖好多包成功图:可以直接展示查询结果:操作步骤:1 flink 源码编译源码下载地址:https://archive.ap...原创 2021-11-03 16:30:04 · 453 阅读 · 1 评论 -
pg数据高级函数解释及使用总结
1 lag函数 lag(value any [, offset integer [, default any ]]) returns value evaluated at the row that is offset rows before the current row within the partition; if there is no such row, instead return default. Both offset and default are e原创 2021-09-06 14:47:26 · 862 阅读 · 0 评论 -
PG数据库如何快速的查询ip归属地 (2种方法)
第一种方法:数据库种保存的ip地址段,归属地的数据结构如下:要求查询ip地址:66.249.79.3的归属地信息。一,用函数方式。函数原理就是将ip转换成数值,66*256^3+249*256^2+79*256^1+3*256^0 = …………在数据库种执行以下函数:create or replace function inet_aton(ip text) returns int8 as $$declare v int; res int8 := 0; .原创 2021-08-25 15:25:20 · 2130 阅读 · 0 评论 -
最新 全球 ip地址 归属地 字典表 (202108)
最新 全球 ip地址 归属地 字典表 (202108)原创 2021-08-19 18:17:13 · 2540 阅读 · 0 评论 -
Flink cdc 读取 kafka json 数据入PG数据库
在日常的开发中,最常用的数据格式是 JSON ,并且有的时候 JSON 的格式是非常复杂的(嵌套的格式),那在 Flink SQL 中进行解析的时候也会相当麻烦一点,下面将会演示如何在 DDL 里面定义 Map、Array、Row 类型的数据,以及在 SQL 里面如何获里面的值数据格式如下:以下数据完全是自己造的,没有任何实际含义{"funcName":"test","data":{"snapshots":[{"content_type":"application/...原创 2021-06-25 15:44:02 · 1224 阅读 · 1 评论 -
PG数据库checkpoint浅析
相关问题引入这里列举几个问题,由此引发我们对 checkpoint 相关机制的思考: 我们日常操作Postgresql 数据库时,很多操作都会触发数据库的 checkpoint 事务(例如启动、关闭数据库,数据库超级管理员显式地执行 checkpoint 命令等)。那到底都有哪些行为或事件会触发 checkpoint 呢? 有些人使用 Postgresql 数据库时,可能会在数据库的 log 日志中发现类似于如下提示: (英文环境)checkpoints are occurring原创 2021-06-25 15:23:13 · 442 阅读 · 0 评论 -
FlinkCDC 同步 PostgreSQL -> PostgreSQL 数据时日志占满磁盘问题
1 前段时间遇到一个问题,用Flinkcdc 同步阿里云数据库RDS的postgresql中的数据到本地的postgresql库中。发生了一个置命的问题。磁盘空间占满,dao'zhi原创 2021-06-25 15:15:23 · 1340 阅读 · 0 评论 -
PostgreSQL WAL 文件数量长期持续增加问题排查
1. 提出问题最近遇到一个自己运维 DB 的开发同学反馈:"我们的业务量较小,但现在数据库积累了大量的 WAL, 一个月的时间 pg_wal 目录和归档的目录均超过了80GB, 且 WAL 增长的速度较快,由于虚拟机的磁盘不大,几乎把磁盘撑爆了,我应该怎么处理呢?可以先人工删一下吗?”针对这个现象,我们需要分析如下几个问题: 几乎没有业务为什么 WAL 还会增加且增加的还很快? WAL 会一直增加直至把磁盘撑爆吗?DBMS 有参数控制上限么? WAL 文件为什么会保留那么多原创 2021-06-16 11:05:09 · 777 阅读 · 0 评论 -
prometheus + grafana 对flink 进行监控
一:flink监控简介Flink提供的Metrics可以在Flink内部收集一些指标,通过这些指标让开发人员更好地理解作业或集群的状态。由于集群运行后很难发现内部的实际状况,跑得慢或快,是否异常等,开发人员无法实时查看所有的Task日志,比如作业很大或者有很多作业的情况下,该如何处理?此时Metrics可以很好的帮助开发人员了解作业当前状况。对于很多大中型企业来讲,我们对进群的作业进行管理时,更多的是关心作业精细化实时运行状态。例如,实时吞吐量的同比环比、整个集群的任务运行概览、集群水位,...原创 2021-05-24 18:47:53 · 988 阅读 · 0 评论 -
源码安装 superset 0.30, 并增加echars插件(中国地图,漏斗图)【推荐】
环境介绍系统:centos7.6python版本:3.7.6superset版本:0.30echarts版本:4.2.0以上nodejs版本:14.16说明,注意:要安装echars插件的话,必须用源码方式安装superset,否则本篇文章不适用。使用pip(安装方法)直接安装的时候,进入安装路径下没有src目录。源码安装方法1 搭建Anaconda虚拟环境首先下载安装文件Anaconda3-2019.10-Linux-x86_64.sh进入官网地址:https:/.原创 2021-04-16 23:33:00 · 810 阅读 · 6 评论