自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小张的博客

记录自己的学习和项目成果

  • 博客(23)
  • 收藏
  • 关注

原创 4、MYSQL-DQL-基本查询

本文详细介绍MySQL中DQL数据查询语言的完整语法与实战用法,先给出标准查询语法结构,再通过创建商品表、学生表完成数据准备。内容涵盖四大运算符(算术、比较、逻辑、位运算)的用法与示例,依次讲解条件查询、排序查询、聚合查询、分组查询、分页查询**五大核心查询方式,明确各子句执行顺序与使用规则。同时提供大量可直接运行的SQL示例,包括字段运算、模糊匹配、NULL判断、聚合统计、分组过滤、分页限制等,并搭配学生成绩表进行综合练习,帮助系统掌握数据库查询的核心技能。

2026-02-13 00:58:02 506

原创 3、MYSQL-约束

本文介绍了MySQL中常用的6种数据约束条件:1.主键约束(PRIMARY KEY)用于唯一标识记录,包括单列主键和联合主键的创建与删除方法;2.自增约束(AUTO_INCREMENT)实现自动编号,说明其特性及初始值设置方式;3.非空约束(NOT NULL)确保字段必填;4.唯一约束(UNIQUE)防止字段值重复;5.默认约束(DEFAULT)设置字段默认值;6.零填充约束(ZEROFILL)实现数值前补零显示。每种约束均详细说明了添加和删除的SQL语法,并包含注意事项,如自增约束在TRUNCATE和DE

2026-02-13 00:57:45 406

原创 2、MYSQL-DML

摘要:DML(数据操作语言)包含数据插入、修改和删除操作。数据插入使用INSERT语句,可指定列名或省略列名批量插入;数据修改通过UPDATE实现,可用WHERE条件筛选特定记录;数据删除使用DELETE或TRUNCATE,后者效率更高。DELETE逐行删除,TRUNCATE直接重建表。示例包括插入学生记录、修改地址和成绩、删除特定学生数据等操作。

2026-02-12 01:28:50 140

原创 1、MYSQL-DDL

摘要:本文介绍了数据定义语言(DDL)的基本操作,包括数据库和表结构的操作。主要内容涵盖:1)数据库操作(创建、查看、切换、删除、修改编码);2)表操作(数据类型分类、创建表、查看表结构、删除表);3)修改表结构(添加列、修改列名和类型、删除列、修改表名)。重点说明了各类SQL语句的语法格式和使用示例,为数据库管理提供了基础操作指南。

2026-02-12 01:04:36 502

原创 HappyBase 连接 HBase 的完整流程与配置说明

本文介绍了三节点HBase分布式集群的部署与Python连接方案。集群采用bigdata1作为Master兼RegionServer,bigdata2/3为RegionServer节点,配置了ZooKeeper集群、HDFS存储路径等核心参数。通过启动Thrift服务(9090端口)提供外部访问接口,使用Python的HappyBase库实现连接管理、表创建等操作。实验验证了HBase与HDFS、ZooKeeper的协同工作,建立了跨语言访问HBase的标准流程,为大数据应用开发提供了可扩展的工程化解决方案

2026-01-12 22:26:36 924

原创 Hbase-2.4.9分布式安装

本文详细记录了在CentOS 9系统上配置HBase分布式集群的全过程。主要内容包括:1)网络配置与主机名设置;2)SSH免密登录配置;3)JDK 1.8和Hadoop 3.2.4环境搭建;4)三节点Hadoop集群配置(含核心配置文件修改);5)Zookeeper 3.7.0集群部署;6)HBase 2.4.9分布式安装与参数配置。文档提供了完整的配置命令和参数说明,特别强调了组件间的依赖关系(需先启动Hadoop和Zookeeper),并包含详细的验证步骤,确保每个组件正确运行。

2025-12-28 19:50:46 980

原创 CentOS9 Stream搭建hadoop3.2.4完全分布式

本文详细介绍了在CentOS 9系统上配置Hadoop 3.2.4集群的完整流程。主要内容包括:1) 配置三台虚拟机(hbase01-03)的网络、主机名和SSH免密登录;2) 安装JDK 1.8并配置环境变量;3) 部署Hadoop集群,修改6个核心配置文件(hadoop-env.sh、core-site.xml等);4) 通过克隆方式快速创建其他节点;5) 完成HDFS初始化并启动集群服务。文中提供了具体命令和配置示例,涵盖从系统设置到Hadoop集群运行的全过程,适用于构建基于Hadoop 3.2.4

2025-12-27 21:43:48 1103

原创 ZooKeeper-3.7.0安装

本文详细介绍了在三台CentOS 9服务器上搭建Zookeeper集群的完整流程。主要内容包括:1)网络配置(IP、DNS设置);2)主机名和hosts映射配置;3)SSH和防火墙设置;4)JDK 1.8环境安装;5)Zookeeper 3.7.0集群部署,含配置文件修改、myid创建及分发;6)集群启动与状态验证。配置过程涵盖主从节点设置、环境变量配置及服务启动等关键步骤,最终通过状态检查确认集群搭建成功(1台Leader+2台Follower)。

2025-12-27 21:43:21 945

原创 Hadoop3.1.3完全分布式搭建

【代码】Hadoop3.1.3完全分布式搭建。

2025-12-26 15:03:27 978

原创 Hbase实战

本文摘要: 本文详细介绍了HBase数据库的实践操作,包括Shell命令操作、Java API编程和过滤器应用三个核心部分。第一部分通过Shell命令演示了HBase集群启动、命名空间管理、表操作和数据增删改查;第二部分基于Java API实现了命名空间管理、表管理(创建/修改/删除表)和数据操作(增删改查);第三部分重点讲解了多种过滤器的使用,包括列值、列族、组合、分页等过滤器,并提供了完整的Java实现代码。

2025-12-26 14:06:53 1504

原创 卡车空气压力系统(APS)故障预测

摘要:本研究针对斯堪尼亚卡车空气压力系统(APS)故障预测问题,基于UCI机器学习仓库提供的76,000个样本和171个匿名特征数据集开展研究。面对数据中1.81%的极端类别不平衡和大量缺失值,研究采用了一套系统化的预处理流程:首先剔除高缺失率特征,对分类特征和数值特征分别采用众数和中位数填充;然后通过标准化处理消除量纲差异;最后利用随机森林算法将特征从170个筛选至46个关键特征。为解决类别不平衡问题,研究对比了SMOTE过采样和欠采样技术,最终确定SMOTE方法效果更优。在模型评估阶段,XGBoost和

2025-12-25 00:13:03 1186

原创 广告点击实时分析

本文设计并实现了一套广告点击实时分析系统,采用"采集-缓冲-计算-存储-展示"的数据流模式。系统通过Flume采集模拟日志数据,Kafka作为消息队列缓冲,Spark Streaming进行实时聚合计算,结果存储于MySQL数据库,最终通过FineBI实现可视化展示。测试表明系统能够实现秒级延迟的广告点击量统计,准确输出各省市点击量Top10排行,并以地图、柱状图等形式直观展示热点分布。项目完整实现了大数据实时处理的技术闭环,为广告投放优化提供了数据支持,同时验证了主流大数据组件在实时分

2025-12-24 00:42:35 1215

原创 基于实时数仓二手车之家分析

本文设计并实现了一个基于Python的二手车数据分析及管理系统,旨在解决二手车市场信息不对称问题。系统采用Selenium爬取二手车之家网站数据,通过Kafka实现实时数据传输,利用Flink进行数据处理和指标计算,并将结果存储至MySQL和Redis数据库。前端使用ECharts实现数据可视化,后端基于Flask框架开发管理系统功能。系统包含车龄分布、价格区间、热门车型等数据分析模块,以及用户管理、车辆管理等业务功能。项目整合了Python、MySQL、Redis、Kafka、Flink等技术栈,实现了从

2025-12-24 00:42:18 1072

原创 大数据应用-大数据主题赛-中国低碳贸易与可再生能源全景洞察

计算机程序设计大赛主题赛省一等奖作品:在全球应对气候变化、金融波动、各国政策变化的背景下,低碳贸易与可再生能源的发展成为实现碳中和目标的关键路径[1]。中国作为全球最大的制造业和出口国,在低碳技术产品贸易和可再生能源领域取得了显著成就。然而,现有研究多停留在理论层面,缺乏实证数据支持。

2025-12-23 17:52:30 1172

原创 电商流量分析与应用

摘要:本项目针对电商平台用户行为数据分析需求,构建了一套完整的大数据处理流程。采用Flume实时采集日志数据至HDFS,通过Hive建立分层数据仓库(ODS/DWD/DWS/ADS),实现数据清洗、转换和聚合分析。重点计算了UV、PV等核心指标,并基于时间、事件、设备等多维度进行统计分析。最终通过FineBI工具实现数据可视化,生成包含趋势图、热力图等分析报表。项目解决了数据采集配置、格式解析、空值处理等技术难点,形成了一套可复用的数据分析框架,为电商运营决策提供了有效的数据支持。

2025-12-23 16:57:00 856

原创 Hive安装步骤

解压并重命名Hive安装包,将解压后的文件夹放置在目录下。添加环境变量,编辑保存后执行使环境变量生效。将MySQL驱动拷贝到Hive的lib。

2025-11-27 23:24:32 244

原创 Flume报错信息汇总

摘要:总结了三个Hadoop集群常见问题及解决方法:(1)Master节点启动失败时,需检查高可用模式状态,将Standby改为Active;(2)Flume版本不兼容导致Topic报错,应确保使用1.70+版本;(3)Kafka消费者无数据时,需验证Topic名称准确性。每个问题解决后均需验证服务状态和数据传输情况。

2025-11-24 09:05:55 475

原创 Flume负载均衡

本文展示了使用三台机器搭建Flume负载均衡系统的配置方案。node01作为数据采集节点,通过NetCat接收数据并使用LoadBalancingSinkProcessor将数据轮询分发至node02和node03。配置细节包括:node01设置两个Avro Sink(端口4141/4142),node02和node03分别配置对应的Avro Source接收数据并输出日志。系统采用内存通道,通过SinkGroup实现负载均衡,支持横向扩展和请求分流。关键点包括SinkGroup定义、故障转移机制配置和端口

2025-11-23 01:49:14 289

原创 Flume故障转移

本文介绍了使用Flume构建故障转移数据管道的实现方案。通过配置三个Flume实例,其中Flume1作为主节点监控44444端口,其Sink组采用Failover策略,将数据优先发送至高优先级Flume2(端口4141),当Flume2故障时自动切换至备用Flume3(端口4142)。配置要点包括:定义Sink组及成员、设置优先级数值(数值越大优先级越高)、确保通道绑定一致。测试验证了故障自动转移和恢复机制,当高优先级Sink恢复后会自动接管流量。该方案有效解决了数据处理中的单点故障问题,提高了系统的可靠性

2025-11-23 01:48:50 888

原创 flume-Channel选择器副本机制

本文介绍了一个基于Flume的双路数据采集方案,用于实时监控文件变更并同步保存到HDFS和本地文件系统。架构采用三层设计:数据采集层(Flume1)通过exec source监控文件变化,使用replicating selector将数据分发到两个channel;数据处理层由Flume2(HDFS输出)和Flume3(本地文件输出)组成,通过Avro协议实现节点间通信。文中详细解析了三个Flume节点的配置参数,包括source、sink和channel的设置,并提供了关键注意事项:路径权限检查、参数优化建

2025-11-22 00:01:44 508

原创 centos Stream9系统从0开始搭建分布式hbase2.4.9

本文档详细记录了HBase分布式集群的安装配置过程,主要包括以下步骤:1)系统环境准备,包括网络配置、主机名设置和SSH免密登录;2)JDK 1.8和Hadoop 3.2.4的安装与配置;3)Zookeeper 3.7.0集群的部署;4)HBase 2.4.9分布式环境的搭建。文档提供了完整的配置文件修改示例,并强调了各组件间的依赖关系和启动顺序。安装过程采用三节点架构(hbase01-03),详细说明了从基础环境配置到最终服务启动的完整流程,为后续HBase学习提供了可靠的运行环境。

2025-11-22 00:00:51 917

原创 Sqoop简介以及使用

Sqoop是一个用于在Hadoop系统(HDFS/Hive/HBase)与关系型数据库(如MySQL、Oracle)之间高效传输批量数据的工具。它通过MapReduce作业实现数据导入导出,支持全表导入、查询导入、指定列导入等多种方式,并能将数据导入Hive或HBase。Sqoop架构简洁,利用JDBC访问数据库元数据,通过并行化MapTask实现高速传输。虽然不支持实时传输,但能有效解决Hadoop与传统数据库间的数据交互问题。典型应用场景包括将MySQL数据导入HDFS/Hive,或将Hive数据导出到

2025-11-21 21:46:29 1121

原创 sqoop错误总结

sqoop错误总结

2025-11-21 21:30:40 1183 1

hbase项目源代码+数据

本文摘要: 本文详细介绍了HBase数据库的实践操作,包括Shell命令操作、Java API编程和过滤器应用三个核心部分。第一部分通过Shell命令演示了HBase集群启动、命名空间管理、表操作和数据增删改查;第二部分基于Java API实现了命名空间管理、表管理(创建/修改/删除表)和数据操作(增删改查);第三部分重点讲解了多种过滤器的使用,包括列值、列族、组合、分页等过滤器,并提供了完整的Java实现代码。

2025-12-26

2025计算机程序设计大赛中南赛区-大数据主题赛省一作品(碳循绿脉:中国低碳贸易与可再生能源全景洞察)

说明文档:提交《中国大学生计算机设计大赛 作品信息概要表(大数据应用,2025版)模板》的PDF版本。 设计文档:实践赛作品模板参见《中国大学生计算机设计大赛 作品报告(大数据实践赛,2025版)》;主题赛(和鲸赛道)作品要求参见:https://www.heywhale.com/home/competition/6777adb2f55c510422ae637b/content/3(注:企业命题作品应在技术文档中,详细说明使用相关企业所提供设备和技术,包括但不限于技术方案、具体实现、测试效果等) 演示文档:提交现场演示PPT文档,内容以充分展示作品为目的。特别注意要说明作品创意的来源、与现有应用的区别,以及技术开发的增量部分。 演示视频:提交作品演示视频,以展示作品的运行效果或主题立意为主,其他如开发过程、功能讲解、数据处理、数据分析等为辅。若不开展网评,没有必要以答辩形式展示。视频时长5分钟左右,格式为MP4,画质建议1080P,文件大小不超过500MB,画面清晰、声音稳定。 源代码:作品团队开发产生的全部源代码、相关工程设计文件、模型文件,但不包括编译中间文件、开源软件源、公共类库等代码。作品所采用的数据集,仅上传少数典型样本即可,并在《中国大学生计算机设计大赛 作品信息概要表(大数据应用,2025版)模板》中说明完整版的下载链接。所有源代码建议采用单一压缩文件上传到“素材与源码”,不超过200MB。 参赛作品应有完整的软件或软硬件实物系统。 大数据实践赛实物展示:答辩时展示给评比专家。对于不便于现场展示的系统,可采用视频展示(此视频与提交文件中的演示视频可为同一文件,亦可为另一独立视频文件,若为独立视频文件,请嵌入答辩演示PPT,或上传到“作品演示视频”答辩演示目录,单独标记为“答辩时演示”,MP4格式提交,时长5分钟左右,文件大小不超过500MB)展示; 大数据主题

2025-12-22

本项目属于网络爬虫与数据可视化领域,技术关键词包括 Python 爬虫、HTTP 请求、数据清洗、可视化分析,内容关键词涵盖网页数据采集、结构化存储、图表展示,用于实现网络数据的自动获取与直观分析

项目围绕爬虫系统的设计与实现,完成从目标页面数据抓取、解析处理到可视化展示的完整流程,强调数据获取与表达的工程实践能力。适用于计算机与数据相关专业学生,使用场景为课程设计与实践训练,目标是掌握基础爬虫技术与数据可视化方法。项目以教学与技术验证为主,侧重规范流程与实现思路,结果不涉及业务决策与实际部署。

2025-12-22

本项目聚焦电商用户行为数据分析,属于数据工程与数据分析领域,技术关键词涵盖日志采集、数据仓库分层、SQL 分析与可视化,内容关键词包括用户访问日志、PV/UV 指标、多维统计,主要用于支撑运营分析决策

项目通过构建从数据采集、清洗建模到指标分析与结果展示的完整流程,实现对电商流量数据的系统化处理与解读。 适用于数据科学与大数据相关专业学生及初级数据工程实践场景,目标是提升对真实业务数据处理流程与分析逻辑的理解与应用能力。 项目侧重方法与流程的规范性,结果用于教学与实践验证,实际业务应用需结合具体数据环境进一步优化与扩展。

2025-12-22

本项目基于工业级卡车 APS 运行数据,综合运用数据预处理、特征工程、不平衡数据处理与多模型对比方法,构建了一套高精度的故障预测模型,为预测性维护提供了可靠的数据挖掘与机器学习解决方案

本项目基于卡车空气压力系统(APS)运行数据,构建了一套面向预测性维护的故障预测模型。通过系统化的数据预处理、特征工程及不平衡数据处理方法,对高维、强缺失的工业数据进行有效建模。对比多种机器学习算法后,验证了集成模型在故障识别准确性与训练效率方面的优势。研究结果为工业设备故障预测提供了可行的数据挖掘与工程实践方案。

2025-12-22

2025计算机程序设计大赛中南地区赛道作品提交要求

2025计算机程序设计大赛中南地区赛道作品提交要求

2025-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除