- 博客(23)
- 收藏
- 关注
原创 MongoDB
MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。
2023-12-18 17:43:19
919
原创 DataSophon
Kerberos是一种计算机网络认证协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、保护数据完整性等场合,是一种应用对称密钥体制进行密钥管理的系统。
2023-12-12 15:30:49
1373
原创 Docker
解决了运行环境和配置问题的软件容器,方便做持续集成并有助于整体发布的容器虚拟化技术(运行程序的时候需要兼容的环境和版本,就像搬家一样,容器技术就是般楼,整个都搬走)
2023-12-07 10:48:41
862
原创 Datax同步GP到MongoDB
读取GP数据-同步到MongoDB。整体流程用datax完成,使用postgresqlreader和mongodbwriter,(需要符合MongoDB版本),202309的dataxmongodbwriter不支持本次用到的mongo6.0.10版本,mongo-java-driver是3.2.2版本,对应mongo版本可查看,图截不,需要修改兼容的版本,重新编译,上传mongobwriter插件在/datax/plugin/writer。
2023-11-29 14:37:11
636
原创 数据湖Iceberg
比如在常用的Hive中,如果我们需要把一个按天分区的表,改成按小时分区。当我们改变一个表的分区策略时,对应修改分区之前的数据不会改变, 依然会采用老的分区策略,新的数据会采用新的分区策略,也就是说同一个表会有两种分区策略,旧数据采用旧分区策略,新数据采用新新分区策略, 在元数据里两个分区策略相互独立,不重合。数据文件是Apache Iceberg表真实存储数据的文件,一般是在表的数据存储目录的data目录下,如果我们的文件格式选择的是parquet,那么文件是以“.parquet”结尾。
2023-11-03 14:24:52
66
2
原创 GreenPlum
在典型的Shared-Nothing中,每个节点上所有的资源的CPU、内存、磁盘都是独立的,每个节点都只有全部数据的一部分,也只能使用本节点的数据资源。在Greenplum中,需要存储的数据在进入到表时,将先进行数据分布的处理工作,将一个表中的数据平均分布到每个节点上,并为每个表指定一个分布列(Distribute Column),之后便根据Hash来分布数据,基于Shared-Nothing的原则,Greenplum这样处理可以充分发挥每个节点处IO的处理能力。Master节点一般只有一个或二个。
2023-11-03 10:44:38
234
原创 Hive数据仓库工具
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive本质是一个Hadoop客户端,用于将HQL(HiveSQL转化成MapReduce程序。
2023-08-23 23:07:24
62
原创 Maxwell
Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控MySQL数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。
2023-08-22 19:01:40
57
原创 Flume
Flume一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。
2023-08-19 14:38:52
91
原创 大数据八股文(自用)
实现的逻辑是继承GenericUDF,重写evaluate方法,getdisplay方法。打包上传到hdfs路径上或者hive的lib目录 注册自定义的函数UDTF炸裂 一行多输出 TUDAF聚合多行输出一行Aggregate前台是和用户直接交互的界面和各种实时响应用户请求的业务逻辑。后台是并不直接面向用户的配置管理系统。中台就是各个项目业务中 重复的轮子,比如交易、支付。
2023-07-25 21:30:26
1059
3
原创 HBase
以hdfs为数据存储的,一种分布式、可扩充的NoSQL非关系型数据库。HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。关系型数据库如MySQL是按照行列表存储,非关系型数据库是kv对存储。
2023-07-12 19:44:33
60
2
原创 Redis
是一个高性能的 key-value 数据库。Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。Redis支持数据的备份,即master-slave模式的数据备份。
2023-07-09 12:49:37
57
1
原创 Flink1.17学习笔记(自用)
作业提交给Yarn的ResourceManager,选择一个节点NodeManager启动一个容器,容器里运行ApplicationMaster(JobManager),JobManager里面启动分发器和资源管理器,分发器启动JobMaster生成逻辑流图StreamGraph,经过算子链的优化生成作业流图JobGraph,将作业流图并行化展开生成执行流图ExecutionGraph。end=start+窗口长度。任务槽的共享组,在同一个作业中,不同任务节点的并行子任务,就可以放到同一个slot上执行。
2023-07-01 10:08:02
1027
原创 数据科学库(HM)学习笔记(自用)
数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们作出判断,以便采取适当行动。matplotlib最流行的Python底层绘图库,做能将数据可视化,更直观呈现,使数据更加客观,说服力。...
2022-03-14 09:40:25
1464
原创 计算机视觉学习笔记(自用)
RGB图变为灰度图Gray=R*0.3+G*0.59+B*0.11直方图均衡化:对图像进行非线性拉伸,重新分配各个灰度单位中的像素点数量,使一定灰度范围像素点数量的值大致相等。自适应直方图均衡(AHE)通过对局部区域进行直方图均衡,移动模块在原始图片上按特定步长滑动;每次移动后,模板区域内做直方图均衡,映射后的结果赋值给模板区域内所有点,每个点都会有多次赋值,最终的取值为这些赋值的均值。AHE会过度放大图像中相对均匀区域的噪音,可采用限制对比度的自适应直方图均衡(CLA...
2022-03-10 20:12:34
3342
原创 目标检测学习笔记(自用)
目标检测是在图片中对可变数量的目标进行查找和分类传统目标检测算法Viola-Jones(人脸检测)Haar特征抽取训练人脸分类器(Adaboost算法等)滑动窗口 HOG+SVM(行人检测,Opencv实现) 提取HOG特征 训练SVM分类器 ...
2022-03-10 15:54:17
2952
原创 深度学习笔记(自用)
定义一组函数(模型) ->函数的优良性 ->选择最佳函数machine Learning的三个步骤:定义一个model即function set 定义一个goodness of function损失函数去评估该function的好坏 找一个最好的functionSupervised Learning(监督学习)需要大量的training data,这些training data告诉我们说,一个我们要找的function,它的input和output之间有什么样的关...
2022-03-09 16:20:32
304
原创 Python学习笔记(自用)
一、整数divmod()函数可以同时得到商和余数,返回的是一个元组。round(value):可以返回四舍五入的值返回当前时间: import time time.time(),但是计算机的时间是从1970年1月1日0:00:00开始返回值是秒的浮点数。二、字符串: 8位的ASCLL码是16位的Unicode子集 转义字符: \续行符 ...
2022-03-08 19:29:38
1340
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人