自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Hive Metastore Server (HMS)

—每个表都可以有一个或多个分区键来确定数据的存储方式,例如,具有日期分区列 ds 的表 T 具有包含特定日期数据的文件,这些文件存储在 <table location>/ds=<date > HDFS 中的目录。——解析查询的组件,对不同的查询块和查询表达式进行语义分析,并最终在从 Metastore 中查找的表和分区元数据的帮助下生成执行计划。– 存储仓库中各种表和分区的所有结构信息的组件,包括列和列类型信息,读写数据所需的序列化器和反序列化器以及存储数据的相应HDFS文件。——接收查询的组件。

2023-11-02 15:25:33 103

原创 Pytorch基本操作

b.tensor.to(device)#把tensor转化为CUDA支持的tensor,或者CPU支持的tensor。1、 x+y\tensor.add(x,y)\x.add(y)两个tensor进行相加,不会对x,y有什么影响。7、转置:二维:tensor.t() 高维交换:permute(,,) , transpose(0,2)6、常用计算方法:tensor.max()/tensor.min()/.std()3、获取形状:tensor.size()/tensor.shape()

2023-11-02 15:24:34 45

原创 Shallow Neural Networks(W恩达-深度学习第一课测试题Test3)

Test-第三周测试题

2023-07-19 16:22:29 135

原创 AI与向量数据库

语义表示(embedding)虽然还做不到像图片数据那样无损表示,但是经过大语言模型的端到端学习,特别是多模型语料学习,使语义表示又更近了一步。基于语义的检索,可以改进传统搜索引擎,语义检索相比于传统的以term为单位的检索,除了能召回包含关键字的数据,同时可以召回与查询句子同义表述的数据。实际应用时可以将两种召回源结果进行排序返回。目前大模型对话API的调用比较费算力,其实有很多问题都是重复的,可以对用户的对话结果进行语义缓存,不用每次都要输入到模型进行推理,在一些单轮的场景还是比较实用的。

2023-07-15 11:38:49 89 1

原创 Neural Network Basics(W恩达-深度学习第一周第二课测试题)

Test-第二周测试题

2023-07-13 16:57:21 50 1

原创 neural-networks-deep-learning-Introduction to Deep Learning(W恩达-深度学习第一课测试题)

Test-第一周测试题

2023-07-11 15:59:34 34

原创 flume多级流动、扇入流动、扇出流动

多级流动(Multi-hop flow)适用于复杂的数据流水线或分布式数据处理场景,数据需要经过多个Flume代理进行处理和传输。扇入流动(Fan-in flow)用于聚合来自不同数据源的数据,将其合并成一个数据流。扇出流动(Fan-out flow)用于将数据发送到多个目标系统,实现数据的复制、备份或并行处理。

2023-06-15 17:42:05 236

原创 flume基本操作——source、sink

监听Avro端口来接受外部avro客户端的事件流,和netcat不同的是,avro-source接收到的是。经过avro序列化之后的数据,然后反序列化数据继续传输,所以,如果avro-source的话,源。spool的source,当被监控的目录下有文件更新,就会将文件数据发给chanel。在/opt/apps/flume/data目录下启动spoolsource。2、在flume目录下创建data目录进入 /opt/apps/flume。在data目录下创建spoolsource.conf。

2023-06-14 20:51:15 444

原创 集群部分启动命令

【代码】集群部分启动命令。

2023-06-12 21:01:45 117

原创 Hadoop HA 搭建

5、分发 core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml。copy至node02、node03的/opt/apps/hadoop/etc/hadoop下覆盖原来的配置文件。在node01启动namendoe,在zkfc格式化的namenode节点上,6、在三台节点/opt/apps/hadoop/etc/hadoop目录下编辑workers。4、配置mapred-site.xml。2、配置hdfs-site.xml。

2023-06-12 20:23:18 142

原创 数仓项目技术体系及技术实现流程

2、采用 Flume自定义 Flume 拦截器对 JSON 日志数据进行校验后采集日志数据至消息队列Kafka 后使用flume将数据同步至HDFS。3、使用 Hive 外部表将模拟数据源根据日期进行分区加载至 ODS 层后采用HiveSql汇总逐层载入DIM层、DWS层、ADS层。1、采用Maxwell采集业务数据至消息队列kafka后采用flume同步至HDFS使用Datax对数据进行全量同步至ODS层。

2023-06-11 22:41:14 144 1

原创 数仓项目启动流程

/将hadoop的/opt/apps/hadoop/share/hadoop/common/lib下的guava-27.0-jre.jar复制到flume的里边目录并把原来的低版本guavajar包删除。//将钉钉群中flume-interceptor-1.0.0-jar-with-dependencies.jar上传flume的lib目录下。如果不在需更改app-dw的conf下maxwell及datax配置的与mysql相关配置文件。4、上传app-dw文件至/opt/下。

2023-06-08 22:48:59 76

原创 spring-控制反转IOC

在java开发中loc意味着将你设计好的对象交给容器控制,而不是传统的你的对象内部直接控制。谁控制谁,控制什么:传统Java SE程序设计,我们直接在对象内部通过new进行创建对象,是程序主动创建依赖对象;而ioc是有专门一个容器来创建这些对象,即由ioc容器来控制对象的创建;当然是ioc容器控制了对象;为何是反转,哪些方面反转了:有反转就有正转,传统应用程序是由我们自己在对象中主动控制去直接获取依赖对象,也就是正转;而反转则是由容器来帮忙创建及注入依赖对象,对象只是被动的接受依赖对象,所以是反转;

2023-03-13 20:22:17 27

原创 ACID事务——BASE理论

一致性确保了即使在执行第三、第四条语句之间时系统崩溃,前面执行的第一、第二条语句也不会生效,因为事务最终没有提交,所有事务中所作的修改也不会保存到数据库中。因而,事务的原子性与一致性是密切相关的。事务(Transaction)是并发控制单位,是用户定义的一个操作序列,这些操作要么都做,要么都不做,是一个不可分割的工作单位。即一个事务内部的操作及使用的数据对其它并发事务是隔离的,并发执行的各个事务之间不能互相干扰。原子性是指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生。

2023-03-13 20:20:57 51

原创 自动冲突解决

1. 无冲突的复制数据类型(Conflict-free Replicated Datatypes,CRDT)CRDT时可以有多个用户同时编辑的数据结构,包括map、ordered list、计数器等,并且以内置的合理方式自动地解决冲突。一些CRDT已经在Riak2.0中得以具体实现。2. 可合并的持久数据结构(Mergeable persistent data)。它跟踪变更历史,类似于Git版本控制系统,并提出三向合并功能(three-way merge function,CDRT采用双向合并

2023-03-07 18:45:39 61

原创 优雅的编程思想

编程的基本原则1. 清晰性和简洁性最为重要:组件的用户永远也不应该被其行为所迷惑。2. 组件要尽可能小,但又不能太小。3. 代码应该是被重用,而不是被拷贝。4. 组件之间的依赖尽可能降到最小。5. 错误应该尽早被检测出来,最好是在编译时就发现并解决。组件(componene),是指任何可重用的软件元素,从单个方法,但包含多个包的复杂框架,都可以是一个组件。 学习编程艺术首先要学会基本的规则,然后才能知道什么时候可以打破这些规则。

2023-03-01 19:42:45 41

原创 同步复制与异步复制

引言 复制非常重要的一个设计选项是同步复制还是异步复制。对于关系数据库系统,同步或异步通常是一个可配置的选项;而其他系统则可能是硬性指定或者只能二选一。同步复制 主节点需等待直到从节点确认完成写入,然后才会向用户报告完成,并且将最新的写入对其他客户端可见。 同步复制的优点是,一旦向用户确认,从节点可以明确保证完成了与主节点的更新同步,数据已经处于最新版本。万一主节点发生故障,总是可以在从节点继续访问最新数据。缺点则是如果同步的从节点无法完成确认(例如

2023-02-28 19:38:23 317

原创 主从复制系统

1、主从复制是什么?副本:每个保存数据库完整的数据集的节点称之为副本。 确保所有副本之间数据的一致性对于每一次数据写入,所有副本都需要随之更新;否则某些副本将会出现不一致。常见的解决方案是基于主节点的复制(也称为主动/被动,或主从复制)2、工作原理1. 指定某一个副本为主副本(或称主节点)。当客户写入数据库时,必须将写请求首先发给主副本,主副本首先将新数据写入本地存储。2. 其他副本则全称为从副本(或称从节点)。主副本把新数据写入到本地存储后,然后将数据

2023-02-27 19:47:37 51 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除