番茄撒旦在上-CSDN博客

原创 Docker部署springboot项目

摘要：本文介绍如何使用Docker打包Java项目为镜像，包含CentOS/Ubuntu环境下JDK安装、JAR包部署和启动配置。重点说明Dockerfile编写要点：基础镜像选择、JDK安装配置、工作目录设置、JAR包复制和启动命令（ENTRYPOINT/CMD）。特别讲解了Spring Boot应用启动时动态参数传递方式，以及如何处理Docker镜像拉取失败、容器管理（强制删除、日志查看）等问题。

2025-12-23 18:44:23 647

原创什么样的表适合做拉链表

拉链表适用于记录随时间变化且需追溯历史状态的数据，如用户信息、职位申请状态等，这些数据具有唯一标识且变更不频繁但重要。相反，纯行为日志（如浏览、搜索记录）因数据量大且变更频繁，更适合用流水表存储。分析表明，用户账户、画像和职位申请表适合拉链表，而浏览、搜索等行为数据则不适合。拉链表的核心价值在于追踪数据变更历史，对于无需保留历史版本的增量数据使用拉链表会增加存储和计算成本。

2025-12-18 17:09:54 699

原创实训项目——国内大数据就业洞察（一）

智能招聘分析系统设计与实现摘要：本文介绍了一个基于多维度分析的智能招聘系统，采用前后端分离架构，前端使用Vue.js+ECharts实现数据可视化，后端基于SpringBoot框架整合Spark大数据处理技术。系统包含用户管理、智能推荐、企业分析等核心模块，通过协同过滤算法实现职位匹配，并采用Redis优化系统性能。创新性地融合了实时可视化与智能推荐技术，支持Docker容器化部署。项目实践表明，该系统有效解决了招聘行业数据分散、标准不统一等问题，为企业招聘和人才匹配提供了智能化解决方案。

2025-12-15 10:12:05 314

原创实训项目报错总结

一、虽然报错显示了解析后的路径，但相对路径../在 Hive CLI 中有时会因为启动目录不同而解析错误，或者文件确实不在那个位置。二、Datanode无法启动，原来应该启动的节点显示启动的datanode个数为0。

2025-12-15 10:02:16 436

原创 Hive数仓分层——国内大数据就业洞察

本文介绍了基于Hive的大数据就业数据仓库分层设计与实现方案。系统采用四层架构：ODS层存储原始爬虫数据，DWD层通过Spark-Scala进行数据清洗（包括薪资转换、城市标准化等），DWS层按业务主题聚合，ADS层生成最终报表。重点展示了使用Scala编写Spark清洗逻辑的关键代码，包括JSON解析、正则处理和类型转换。工作流程涵盖从Python爬虫数据采集到HiveSQL分析的全链路，并提供了Maven依赖管理和Spark任务提交的实践指南。

2025-12-15 09:53:41 514

原创虚拟机相关网络配置

本文展示了Linux系统中静态IP网络配置的完整流程。配置文件示例详细说明了以太网接口(ens33)的静态IP设置，包括IP地址(192.168.62.133)、子网掩码(255.255.255.0)、网关(192.168.62.2)和DNS服务器(8.8.8.8和114.114.114.114)等关键参数。通过路由表分析和ping测试验证了网络连通性，确认网关可达且延迟正常。最后提供了后续操作建议，包括测试外部网络、检查防火墙状态和验证本地环回接口，确保Hadoop集群节点间的正常通信。

2025-11-21 22:54:31 263

原创一步到位！由于移动虚拟机安装位置导致Unable to find the VMX binary ‘E:\VM\vmware-vmx.exe‘. 解决常规方法的管理员权限问题（已解决）

如何修复VMware软件？首先找到安装目录下的安装包程序，右键选择"以管理员身份运行"。按照提示逐步操作，选择"修复"选项，完成后重启VMware软件即可解决问题。该方法适用于需要修复VMware功能的用户。

2025-11-13 09:24:02 1076

原创 2.每日机器学习——张量（Tensors）

张量是深度学习中的核心数据结构，用于表示多维数组。它具有"阶数"概念，从标量（0阶）到高阶数组（如图像、视频数据）。张量在神经网络中广泛应用：存储权重参数、传递激活值、计算梯度等。数学上，张量是多线性映射，具有不变量、叠加分解等性质。物理学中用于描述应力应变，计算机科学中是处理多维数据的基本工具。自19世纪提出以来，张量理论在机器学习等领域发挥着关键作用。

2025-11-05 11:09:58 404

原创 1.每日机器学习——Logits

定义：Logits是模型最后一层（通常是全连接层）的直接输出，这些输出值尚未经过概率归一化处理。在深度学习中，Logits可以视为模型对每个类别的置信度或概率的度量，但并不直接表示概率。性质：Logits通常为实数范围内的数值，可以取任意实数值，包括正数、负数以及非常大或非常小的值。这些值反映了模型对每个类别的“信心”或“倾向性”。

2025-11-05 11:03:09 487

原创 Azkaban上传文件报错：Installation Failed. java.lang.String cannot be cast to java.util.Map（已解决）

在 Azkaban 的上下文中，这个错误通常发生在项目上传并解压后，Azkaban 尝试解析项目的配置信息（比如project.json或相关元数据）时，但后台代码错误地将某个应该是结构化数据（如 JSON Map）的字段当成了字符串，然后试图强制转成Map，结果失败。简而言之，上传文件中数据格式发生错误。

2025-11-04 11:13:01 335

原创 Required table missing : “VERSION“ in Catalog ““ Schema ““. DataNucleus requires this table ...（已解决）

在使用Hive的schematool初始化MySQL数据库时出现"MissingTableException"错误，提示缺少VERSION表。这是由于MySQL目录权限不足导致DataNucleus无法自动创建所需表。

2025-10-31 20:19:29 258

原创在现有的springboot项目中引入scala

本文介绍了在Spring Boot项目中集成Scala语言的配置方法。对于Gradle项目，需要在build.gradle中添加Scala插件和依赖库，并配置编译选项；对于Maven项目，需修改pom.xml文件添加Scala依赖和编译插件。文章还展示了如何编写Scala服务类并在Java控制器中调用，最后强调了版本兼容性检查和目录结构安排的重要性，建议开发人员学习Scala特性以提升代码质量。

2025-06-18 20:17:03 421

原创上传本地代码到私人仓库

介绍了如何将本地代码传到github的私有仓库

2025-05-06 01:41:25 717 3

原创 conda使用

用conda一段时间了，conda的环境隔离给我带了满满的安全感~~虚拟环境管理功能，可以为不同项目创建隔离环境，避免版本冲突，有时候不同的项目需要安装的依赖包的版本不同~跨平台兼容性，Windows、macOS和Linux均可使用相同的工作流内置Jupyter Notebook。

2025-04-23 00:52:41 456

原创爬虫学习（一）

user-agent。

2025-04-21 11:13:08 632

原创 Saprk环境开发时任务无法提交到hadoop集群和spark_master集群

jar包到虚拟机上再次尝试成功提交到yarn和spark_master集群。第一次在本地运行文件wordcount删除注释运行。第二次需要在虚拟机spark集群运行。打包-->maven_package。

2025-04-11 11:08:41 257

原创 vacode连接不上linux要一直输入密码【已解决】Could not establish connection to xxx: Permission denied(publickey)

修改vscode上.ssh和authorized_key的权限755 600。原因：我不是该linux下的root用户。

2025-03-19 12:18:14 260

原创 HTML必备知识

HTML 是用来描述网页的一种语言。HTML 是一种在 Web 上使用的通用标记语言。HTML 允许格式化文本，添加图片，创建链接、输入表单、框架和表格等等，并可将之存为文本文件，浏览器即可读取和显示。HTML 指的是超文本标记语言: HyperText Markup LanguageHTML 不是一种编程语言，而是一种标记语言标记语言是一套标记标签 (markup tag)HTML 使用标记标签来描述网页HTML 文档包含了HTML 标签及文本内容HTML文档也叫做 web 页面。

2025-03-17 19:00:23 1089

原创 Java编程思路

封装（Encapsulation）将数据（属性）和方法（行为）封装在类内部，并通过访问控制修饰符限制外部对数据的访问。抽象（Abstraction）通过抽象类或接口定义必要的行为或特征，隐藏实现的细节，只暴露对外需要的功能。继承（Inheritance）通过继承使得一个类能够复用另一个类的功能，通过继承机制让一个类从另一个类派生，继承父类的属性和方法。多态（Polymorphism）

2025-03-12 10:38:28 842 1

原创构造方法与成员方法的区别

方法是一个成员方法，它修改客户的信息，并不参与对象的创建，因此不是构造方法。方法是一个成员方法，它更新客户的属性（如。），并且打印出更新的信息。

2025-03-12 10:15:45 300

原创 HDFS副本存放策略之带宽

在副本放置策略中，带宽主要指的是在多个副本之间传输数据时所需的网络传输速率。带宽的限制直接影响副本同步和更新的效率、系统的性能以及副本分布策略的优化。系统在设计副本放置策略时，会综合考虑带宽、延迟、成本等因素，以保证高效的数据复制和一致性。

2025-01-03 19:58:42 520

原创三角函数定理

余弦定理用于求解任意三角形的边长或角度，它给出了三角形的三边和三角形的角之间的关系。正弦定理适用于任意三角形（不仅限于直角三角形）。其中，aa、bb、cc 是三角形的三边，∠A∠A、∠B∠B、∠C∠C 是对应的角。其中，aa、bb、cc 是三角形的三边，∠A∠A、∠B∠B、∠C∠C 是对应的角。这种定理不如余弦定理和正弦定理常见，但在某些特定几何问题中有应用。这些公式在解三角形、求解角度以及处理复合角度问题时非常有用。正切定理用于求解带有内接圆的三角形。其中，CC 是这两边之间的夹角。

2024-12-30 22:20:29 2571

原创大数据原理之初识数据存储+数据分析计算+Hadoop

主要介绍了大数据处理技术以及Hdoop

2024-12-30 15:40:34 2583

原创前端大王的修炼——ruoyi框架

│ └── core // 核心控制，比如说我们以后写的所有Controller都要集成它里面的BaseConttroller，以及实体类定义的统一返回结果AjaxResult、BaseEntity等等，也是在它里面的类的基础上实现的。我们继续点进去，对于非分页的查询，这里面涉及到我们刚才提到的sucess，里面包含三个参数，比如说我们在做课程修改时，是需要会写这部分数据的，我们就可以把data查询出来，在页面进行显示。

2024-12-26 18:43:28 2449

原创大数据原理之mapreduce

Reduce阶段：每个Reduce Worker对数据进行处理时，采用value的值作为新的排序规则(从小到大)，每一个key值都会自动绑定一个全局的index，用于记录输出的排序序列号，得到输出结果。Map阶段：Map处理输入，每获取一个数字，将数字的Count设置为1，并将此对输出，此时以Word作为输出数据的Key。合理设置ReduceTask的工作过程主要经历了5个阶段，分别是Copy阶段、Merge阶段、Sort阶段、Reduce阶段和Write阶段。

2024-12-26 18:42:29 1827

原创 linux下的命令之软连接

Symbolic Link，简称 symlink是一种特殊的文件类型，在 Linux 或类 Unix 操作系统中，它实际上是指向另一个文件或目录的“快捷方式”。软连接与硬链接不同，软连接是一个独立的文件，它包含指向目标文件或目录路径的地址。使用命令的选项来创建软连接。示例：创建文件的软连接：假设你有一个文件，你可以创建一个软连接指向这个文件：这样，在目录下，你将看到作为一个指向文件的软连接。创建目录的软连接：如果你有一个目录，可以创建一个指向该目录的软连接：这样，就是指向目录的

2024-12-26 18:41:37 707

2302_81647966的博客