- 博客(119)
- 资源 (1)
- 收藏
- 关注
原创 YOLOv8原理深度解读,超级详细
本文对YOLOv8里面每个部分的每个组件都进行了详细解释,如Backbone, Neck, Head。本文同时也介绍了YOLOv8的损失函数的设计以及样本匹配的方法。
2023-04-09 17:24:17
98004
31
原创 MySQL Oracle面试题
外键是一个表中的字段,它的值必须匹配另一张表(或同一张表)的主键值。外键的核心是建立和强制两张表之间的引用关系,从而保证数据的逻辑一致性。RDBMS的核心特性(如强事务、实时更新、严格的ACID)约束类型中文名称英文名称核心作用典型实现机制实体完整性实体完整性保证表中每行数据的唯一可标识性主键(Primary Key)约束参照完整性参照完整性保证表与表之间引用关系的一致性外键(Foreign Key)约束用户自定义完整性用户自定义完整性保证数据符合具体的业务规则。
2026-02-05 11:07:17
736
1
原创 数仓中的数据建模方法与ODS到ADS层逐层建设
姓名以及 姓名、系名、系主任这个组合只依赖于学号这个主键,与课程名无关。毕竟,学生姓名不会因为选了什么课就跟着变吧?它要求在第一范式(1NF,即数据原子性)的基础上,确保表中的。因此把上面这一个表拆成两个表。
2026-02-05 10:49:49
55
原创 为什么银行放着好好的Oracle不用,要建设Hadoop数仓?银行建设Hadoop数仓的核心需求分析。
存储的数据量更大价格更便宜,成本更低"招行数据总量已突破,日增数据量,传统数据仓库无法承载如此规模的数据增长。(近3个月):存储在Greenplum,约5PB(3-24个月):存储在Hadoop,约30PB(24个月以上):存储在对象存储,约15PB仅。2023年平安银行数据平台数据:- 总数据量: 40PB+- 日处理数据: 200TB- 集群规模: 3000+节点(LS银行的集群规模多少个节点?- 最大单表: 客户行为表,8.7万亿行。
2026-01-31 10:33:23
80
原创 kettle安装
pdi-ce-8.2.0.0-342.zip 解压成文件夹,并更名kettle。(下一步,下一步,……安装目录不要有空格或中文名)安装jdk-8u161-windows-x64.exe……①下载JDK1.8版本到电脑本地(C盘,D盘,;③配置JDK的环境变量:分三步走?如何安装JDK并配置环境变量。kettle安装包下载。
2026-01-29 17:59:06
100
原创 数据湖简介
所以,你的感觉没错,数据湖本身并不高级。高级的是,头部银行利用这种“朴素”的存储理念,构建了一套允许自己进行“低成本、快速试错、持续创新”的数据基础设施和能力。数据湖的“高级之处”,恰恰在于它用一种朴素的方式,解决了传统数据管理在创新时代的几个核心悖论。数据湖:是 “原始数据探索与创新工厂” ,负责低成本保存全量数据,支持灵活、快速的数据探索、数据科学和。将经过清洗、建模、确认有价值的数据,加工成稳定、可靠、高性能的业务指标和报表,服务于。所以,数据湖的节省,不是靠一个神奇的“超级压缩包”,而是。
2026-01-27 21:38:42
1042
原创 VMware虚拟机无法用moba连接
但是VMware中虚拟机一旦ip修改了(不知道什么原因),因为你设置到了静态,就导致moba连接不上了。原因:你把VMware中虚拟机的ip修改成静态的了,然后moba输入这个ip连接这台虚拟机。子网那里修改成你要的段位。
2026-01-27 08:27:55
213
原创 数据仓库面试题
GaussDB(华为高斯数据库)(关系型数据库 / 企业级数据库),(分布式大数据平台)Oracle:OLTP(核心交易)+ OLAP(数据仓库),强事务。被 GaussDB 等国产数据库替代Hadoop:被 FusionInsight、星环 TDH 等国产大数据平台替代。
2026-01-24 21:42:32
802
原创 银行数仓项目 备用素材
所有银行都按照同样的表结构、数据字典、报送口径来报送数据,极大地方便了监管进行跨机构、跨地区的横向对比分析。这种“穿透式”监管,让银行的业务细节在监管机构面前几乎透明化,可以看清最终的风险承担者和底层资产。监管制定了一套覆盖银行所有主要业务领域(客户、账户、交易、产品、渠道等)的。例如,不是“总贷款余额”,而是。报送的不是汇总报表,而是。
2026-01-24 18:03:31
186
原创 Spark面试准备
PySpark需通过 Py4J 桥接 JVM,有 10%-30% 性能损耗(UDF / 大数据量下明显);优先选 Scala Spark 的场景:核心是 **“追求性能、底层开发、企业级生产环境”**
2026-01-24 16:44:38
433
原创 Spark入门知识
安装重命名为spark,mv命令)mvspark刷新配置文件:spark-env.sh.template,重命名为spark-env.sh配置如下:vi spark-env.sh192.16810.130输入:先创建slaves文件,再添加如下内容son1son2son3启动服务(hadoop):s启动服务(spark):输入即可看到如下信息:Spark Shell 中运行的 Scala 语言代码。
2026-01-23 16:49:24
815
原创 DataX将数据在MySQL和HDFS之间互相迁移
bigdata/datax 目录下面的 新建文件vim mysql_to_hdfs.json。上面这个代码是改了模板获得的。模板是下面这句话获得的。MySQL duoduo_db里面的t_roles。4.将数据从MySQL中导入到HDFS上。里面的"defaultFS": "
2026-01-21 19:17:43
933
原创 Azkaban控制脚本按顺序执行
就是把你azkaban所在位置的这个sh文件启动起来。azkaban启动的标志是下面这样。2.启动executor服务器。1.先启动haoop 集群。3.启动web服务器。
2026-01-16 11:43:04
164
原创 Hive电商数据分析项目 过程记录Raw
注意这里sqoop数据迁移 连接的MySQL地址 要仔细比照,不要用老师原有的那个ip,否则就会出现连接被拒绝访问,出现同步半天hdfs那边什么都没有的情况。(一般实际情况下,数据存在MySQL数据库中,还是一般存在hive里面?,这是这里为了做项目被迫将数据从MySQL迁移到HDFS?
2026-01-12 10:47:14
302
1
原创 Sqoop入门常用命令
【2】使用sqoop列出mysql中指定数据库duoduo_db中的所有表。如果出现下面这个报错,说明mysql的jdbc没有配置好。这实际是sqoop连接不上MySQL了。使用sqoop列出mysql中数据库。✅ 大白话解释:JDBC 是一套。/database的名字。
2026-01-11 08:17:26
252
原创 SQL我后来搞懂,不太重要的东西
2.用新创建的用户tonymin,选择数据库:orcl,并选择normal身份登录;用sys并且选择数据库:orcl, 并选择身份为sysdba登录。用有权限创建用户 的 用户 创建用户。
2025-12-16 17:48:24
191
原创 SQL之前不懂,后来又学会的东西,且很重要的
唯一约束UNIQUE:不能重复;主键PRIMARY(自带唯一索引):不能重复;主键不能为null, 一张表只能有一个主键;user_id是PRIMARY主键,不能为null,uname是UNIQUE可以为NULL但是不能重复。
2025-12-13 16:31:26
336
原创 SQL刷题笔记-我没做出来的题目
- 12.查询 1997 年 7 月以后没有借书的读者借书证号、姓名及单位。把借过书的人挑出来,不在这里的,其他剩余的留下。我当时的解题思路,没做出来。
2025-12-13 16:16:59
229
原创 Power BI可视化与数据分析指南
A120快速入门-12理解数据可视化这些圆点之间连上线什么意思?是同属一个类别吗,还是有什么联系?我看同一个颜色的怎么画了两条不同的线?是历史变动,点之前只有这一个点。ctrl+点击 得到的是这个点和之前这个子类别产品的点连在一起。为什么同一个产品类别,会有这么多点?同一个产品类别,不应该是一个点吗?同一个产品类别是同一个颜色的,比如办公用品是浅蓝,家具是橘黄同一个产品类别下的产品不同子类别形成了不同的点同一个类别只是,图例上显示的颜色不同,在每一行数据上显示的是子类别绘制的操作流程。
2025-11-29 07:25:18
593
原创 Oracle数据库笔记
去虚拟机创建表空间切换到oracle用户把下面写的这段代码扔进去创建子空间如果想修改数据库对应文件的大小和存储位置,用ALTER为表空间添加新的数据文件。
2025-06-04 21:33:07
450
原创 Linux shell练习题
2. 判断~/bigdata.txt 是否存在,若已存在则 进行删除该文件 然后打印出 ”该文件已存在,已被删除“,如不存在 则创建文件,然后输出打印:”该文件不存在,已创建“1. 判断~/bigdata.txt 是否存在,若已存在则打印出”该文件已存在“,如不存在,则输出打印:”该文件不存在“8.将 / 目录下的详细信息写入到文件 tong.log 中,然后打印该文件中的文件名和大小。9.统计~/目录下所有小于1MB的文件数量。7.计算1的阶乘到10的阶乘的累加值。
2025-06-03 10:52:56
502
原创 Apriori关联算法
支持度: 数据集中包含该项集(项集就是元素可能的组合)原始数据的条数 占原始数据的总条数 的比例。例如上图中,{豆奶} 的支持度为 4/5。{豆奶, 尿布} 的支持度为 3/5。,从图中可以看出 支持度({尿布, 葡萄酒}) = 3/5,支持度({尿布}) = 4/5,所以 {尿布} -> {葡萄酒} 的可信度 = 3/5 / 4/5 = 3/4 = 0.75。可信度:{尿布} -> {葡萄酒}这样的关联规则的可信度。Apriori---[əpriˈɔri] ---先天的,推测的。
2024-03-27 15:15:13
438
原创 SQL高级用法
table_a这个table有三个partition,一个是p_product,一个是p_model,一个是p_date,但是我只希望看p_model这一个partition里面可能的选项,应该如何写SQL查看?把首尾用区分字符 前后加 *替代,匹配到然后替换为空,这样会把三个分区的所有目前有组合的可能性都展示出来。文心一言说可以下面这样,但是在我这里用不了。然后把Excel格式的结果下载下来。
2024-03-01 09:40:55
800
原创 Excel的中高级用法
在Flink中,所有的数据都被视为流进行处理,无论是批数据还是流数据,都可以在同一个Flink集群中进行处理。我在Excel表中遇到这个问题,A1写着2022-01-01,A1向下到A15都是空的,A16写着2022-01-02,A17-A27是空的,A28写着2022-01-03, A29-A40是空的。后面还有上千行的数据都是类似情况,其中一行是有日期的,这一行以后十几行都是空的,我希望这十几行都填充上之前那一行?每个批次的数据被单独处理,处理完成后将结果进行整合,得到最终的结果。
2024-02-25 16:22:49
2131
原创 数据分析师必会的Linux bash shell命令【更新中,还未写完】
Linux的cp命令主要用于复制文件或目录。其中,source是要复制的文件或目录,destination是目标位置。options是一系列的代号,表示各种复制的方式首先假如一句命令没有明确写出[options]是什么,或者说直接省略了[options]的话,比如下面这样默认[options]是取 -i。这个-i 是什么意思?-i是 -interactive(交互的)的缩写。在cp命令中表示在复制文件时进行交互式确认。当目标文件已经存在时,-i选项会提示用户是否覆盖目标文件。
2024-01-19 17:34:43
1258
原创 SQL入门语句
本文是MySQL和SQL语句的入门帖子。通过阅读本文你可以学到SQL的以下基本操作:数据汇总计算min max average等统计量,用WHERE筛选数据,用GROUP BY 来分组计算统计量。使用JOIN来联结多张表取数据。数据的增删改查。
2023-11-07 21:59:12
365
Titanic 数据集分析
2023-11-07
79页多目标跟踪入门教程
2023-09-10
YOLOv8+目标追踪所需要用到的模型文件
2023-09-10
视频人群计数代码:YOLOv8+DeepSORT / ByteSORT / StrongSORT 目标识别+追踪+计数
2023-09-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅