qq_51447891-CSDN博客

原创 Hive Metastore Server (HMS)

—每个表都可以有一个或多个分区键来确定数据的存储方式，例如，具有日期分区列 ds 的表 T 具有包含特定日期数据的文件，这些文件存储在 <table location>/ds=<date > HDFS 中的目录。——解析查询的组件，对不同的查询块和查询表达式进行语义分析，并最终在从 Metastore 中查找的表和分区元数据的帮助下生成执行计划。– 存储仓库中各种表和分区的所有结构信息的组件，包括列和列类型信息，读写数据所需的序列化器和反序列化器以及存储数据的相应HDFS文件。——接收查询的组件。

2023-11-02 15:25:33 293

原创 Pytorch基本操作

b.tensor.to(device)#把tensor转化为CUDA支持的tensor，或者CPU支持的tensor。1、 x+y\tensor.add(x，y)\x.add(y)两个tensor进行相加,不会对x，y有什么影响。7、转置：二维：tensor.t() 高维交换：permute(,,) ， transpose(0,2)6、常用计算方法：tensor.max()/tensor.min()/.std()3、获取形状：tensor.size()/tensor.shape()

2023-11-02 15:24:34 100

原创 Shallow Neural Networks(W恩达-深度学习第一课测试题Test3)

Test-第三周测试题

2023-07-19 16:22:29 241

原创 AI与向量数据库

语义表示（embedding）虽然还做不到像图片数据那样无损表示，但是经过大语言模型的端到端学习，特别是多模型语料学习，使语义表示又更近了一步。基于语义的检索，可以改进传统搜索引擎，语义检索相比于传统的以term为单位的检索，除了能召回包含关键字的数据，同时可以召回与查询句子同义表述的数据。实际应用时可以将两种召回源结果进行排序返回。目前大模型对话API的调用比较费算力，其实有很多问题都是重复的，可以对用户的对话结果进行语义缓存，不用每次都要输入到模型进行推理，在一些单轮的场景还是比较实用的。

2023-07-15 11:38:49 217 1

原创 Neural Network Basics(W恩达-深度学习第一周第二课测试题)

Test-第二周测试题

2023-07-13 16:57:21 113 1

原创 neural-networks-deep-learning-Introduction to Deep Learning(W恩达-深度学习第一课测试题)

Test-第一周测试题

2023-07-11 15:59:34 67

原创 flume多级流动、扇入流动、扇出流动

多级流动（Multi-hop flow）适用于复杂的数据流水线或分布式数据处理场景，数据需要经过多个Flume代理进行处理和传输。扇入流动（Fan-in flow）用于聚合来自不同数据源的数据，将其合并成一个数据流。扇出流动（Fan-out flow）用于将数据发送到多个目标系统，实现数据的复制、备份或并行处理。

2023-06-15 17:42:05 438

原创 flume基本操作——source、sink

监听Avro端口来接受外部avro客户端的事件流，和netcat不同的是，avro-source接收到的是。经过avro序列化之后的数据，然后反序列化数据继续传输，所以，如果avro-source的话，源。spool的source，当被监控的目录下有文件更新，就会将文件数据发给chanel。在/opt/apps/flume/data目录下启动spoolsource。2、在flume目录下创建data目录进入 /opt/apps/flume。在data目录下创建spoolsource.conf。

2023-06-14 20:51:15 665

原创集群部分启动命令

【代码】集群部分启动命令。

2023-06-12 21:01:45 158

原创 Hadoop HA 搭建

5、分发 core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml。copy至node02、node03的/opt/apps/hadoop/etc/hadoop下覆盖原来的配置文件。在node01启动namendoe,在zkfc格式化的namenode节点上，6、在三台节点/opt/apps/hadoop/etc/hadoop目录下编辑workers。4、配置mapred-site.xml。2、配置hdfs-site.xml。

2023-06-12 20:23:18 183

原创数仓项目技术体系及技术实现流程

2、采用 Flume自定义 Flume 拦截器对 JSON 日志数据进行校验后采集日志数据至消息队列Kafka 后使用flume将数据同步至HDFS。3、使用 Hive 外部表将模拟数据源根据日期进行分区加载至 ODS 层后采用HiveSql汇总逐层载入DIM层、DWS层、ADS层。1、采用Maxwell采集业务数据至消息队列kafka后采用flume同步至HDFS使用Datax对数据进行全量同步至ODS层。

2023-06-11 22:41:14 215 1

原创数仓项目启动流程

/将hadoop的/opt/apps/hadoop/share/hadoop/common/lib下的guava-27.0-jre.jar复制到flume的里边目录并把原来的低版本guavajar包删除。//将钉钉群中flume-interceptor-1.0.0-jar-with-dependencies.jar上传flume的lib目录下。如果不在需更改app-dw的conf下maxwell及datax配置的与mysql相关配置文件。4、上传app-dw文件至/opt/下。

2023-06-08 22:48:59 792 1

原创 spring-控制反转IOC

在java开发中loc意味着将你设计好的对象交给容器控制，而不是传统的你的对象内部直接控制。谁控制谁，控制什么：传统Java SE程序设计，我们直接在对象内部通过new进行创建对象，是程序主动创建依赖对象；而ioc是有专门一个容器来创建这些对象，即由ioc容器来控制对象的创建；当然是ioc容器控制了对象；为何是反转，哪些方面反转了：有反转就有正转，传统应用程序是由我们自己在对象中主动控制去直接获取依赖对象，也就是正转；而反转则是由容器来帮忙创建及注入依赖对象，对象只是被动的接受依赖对象，所以是反转；

2023-03-13 20:22:17 53