- 博客(23)
- 收藏
- 关注
原创 4、MYSQL-DQL-基本查询
本文详细介绍MySQL中DQL数据查询语言的完整语法与实战用法,先给出标准查询语法结构,再通过创建商品表、学生表完成数据准备。内容涵盖四大运算符(算术、比较、逻辑、位运算)的用法与示例,依次讲解条件查询、排序查询、聚合查询、分组查询、分页查询**五大核心查询方式,明确各子句执行顺序与使用规则。同时提供大量可直接运行的SQL示例,包括字段运算、模糊匹配、NULL判断、聚合统计、分组过滤、分页限制等,并搭配学生成绩表进行综合练习,帮助系统掌握数据库查询的核心技能。
2026-02-13 00:58:02
506
原创 3、MYSQL-约束
本文介绍了MySQL中常用的6种数据约束条件:1.主键约束(PRIMARY KEY)用于唯一标识记录,包括单列主键和联合主键的创建与删除方法;2.自增约束(AUTO_INCREMENT)实现自动编号,说明其特性及初始值设置方式;3.非空约束(NOT NULL)确保字段必填;4.唯一约束(UNIQUE)防止字段值重复;5.默认约束(DEFAULT)设置字段默认值;6.零填充约束(ZEROFILL)实现数值前补零显示。每种约束均详细说明了添加和删除的SQL语法,并包含注意事项,如自增约束在TRUNCATE和DE
2026-02-13 00:57:45
406
原创 2、MYSQL-DML
摘要:DML(数据操作语言)包含数据插入、修改和删除操作。数据插入使用INSERT语句,可指定列名或省略列名批量插入;数据修改通过UPDATE实现,可用WHERE条件筛选特定记录;数据删除使用DELETE或TRUNCATE,后者效率更高。DELETE逐行删除,TRUNCATE直接重建表。示例包括插入学生记录、修改地址和成绩、删除特定学生数据等操作。
2026-02-12 01:28:50
140
原创 1、MYSQL-DDL
摘要:本文介绍了数据定义语言(DDL)的基本操作,包括数据库和表结构的操作。主要内容涵盖:1)数据库操作(创建、查看、切换、删除、修改编码);2)表操作(数据类型分类、创建表、查看表结构、删除表);3)修改表结构(添加列、修改列名和类型、删除列、修改表名)。重点说明了各类SQL语句的语法格式和使用示例,为数据库管理提供了基础操作指南。
2026-02-12 01:04:36
502
原创 HappyBase 连接 HBase 的完整流程与配置说明
本文介绍了三节点HBase分布式集群的部署与Python连接方案。集群采用bigdata1作为Master兼RegionServer,bigdata2/3为RegionServer节点,配置了ZooKeeper集群、HDFS存储路径等核心参数。通过启动Thrift服务(9090端口)提供外部访问接口,使用Python的HappyBase库实现连接管理、表创建等操作。实验验证了HBase与HDFS、ZooKeeper的协同工作,建立了跨语言访问HBase的标准流程,为大数据应用开发提供了可扩展的工程化解决方案
2026-01-12 22:26:36
924
原创 Hbase-2.4.9分布式安装
本文详细记录了在CentOS 9系统上配置HBase分布式集群的全过程。主要内容包括:1)网络配置与主机名设置;2)SSH免密登录配置;3)JDK 1.8和Hadoop 3.2.4环境搭建;4)三节点Hadoop集群配置(含核心配置文件修改);5)Zookeeper 3.7.0集群部署;6)HBase 2.4.9分布式安装与参数配置。文档提供了完整的配置命令和参数说明,特别强调了组件间的依赖关系(需先启动Hadoop和Zookeeper),并包含详细的验证步骤,确保每个组件正确运行。
2025-12-28 19:50:46
980
原创 CentOS9 Stream搭建hadoop3.2.4完全分布式
本文详细介绍了在CentOS 9系统上配置Hadoop 3.2.4集群的完整流程。主要内容包括:1) 配置三台虚拟机(hbase01-03)的网络、主机名和SSH免密登录;2) 安装JDK 1.8并配置环境变量;3) 部署Hadoop集群,修改6个核心配置文件(hadoop-env.sh、core-site.xml等);4) 通过克隆方式快速创建其他节点;5) 完成HDFS初始化并启动集群服务。文中提供了具体命令和配置示例,涵盖从系统设置到Hadoop集群运行的全过程,适用于构建基于Hadoop 3.2.4
2025-12-27 21:43:48
1103
原创 ZooKeeper-3.7.0安装
本文详细介绍了在三台CentOS 9服务器上搭建Zookeeper集群的完整流程。主要内容包括:1)网络配置(IP、DNS设置);2)主机名和hosts映射配置;3)SSH和防火墙设置;4)JDK 1.8环境安装;5)Zookeeper 3.7.0集群部署,含配置文件修改、myid创建及分发;6)集群启动与状态验证。配置过程涵盖主从节点设置、环境变量配置及服务启动等关键步骤,最终通过状态检查确认集群搭建成功(1台Leader+2台Follower)。
2025-12-27 21:43:21
945
原创 Hbase实战
本文摘要: 本文详细介绍了HBase数据库的实践操作,包括Shell命令操作、Java API编程和过滤器应用三个核心部分。第一部分通过Shell命令演示了HBase集群启动、命名空间管理、表操作和数据增删改查;第二部分基于Java API实现了命名空间管理、表管理(创建/修改/删除表)和数据操作(增删改查);第三部分重点讲解了多种过滤器的使用,包括列值、列族、组合、分页等过滤器,并提供了完整的Java实现代码。
2025-12-26 14:06:53
1504
原创 卡车空气压力系统(APS)故障预测
摘要:本研究针对斯堪尼亚卡车空气压力系统(APS)故障预测问题,基于UCI机器学习仓库提供的76,000个样本和171个匿名特征数据集开展研究。面对数据中1.81%的极端类别不平衡和大量缺失值,研究采用了一套系统化的预处理流程:首先剔除高缺失率特征,对分类特征和数值特征分别采用众数和中位数填充;然后通过标准化处理消除量纲差异;最后利用随机森林算法将特征从170个筛选至46个关键特征。为解决类别不平衡问题,研究对比了SMOTE过采样和欠采样技术,最终确定SMOTE方法效果更优。在模型评估阶段,XGBoost和
2025-12-25 00:13:03
1186
原创 广告点击实时分析
本文设计并实现了一套广告点击实时分析系统,采用"采集-缓冲-计算-存储-展示"的数据流模式。系统通过Flume采集模拟日志数据,Kafka作为消息队列缓冲,Spark Streaming进行实时聚合计算,结果存储于MySQL数据库,最终通过FineBI实现可视化展示。测试表明系统能够实现秒级延迟的广告点击量统计,准确输出各省市点击量Top10排行,并以地图、柱状图等形式直观展示热点分布。项目完整实现了大数据实时处理的技术闭环,为广告投放优化提供了数据支持,同时验证了主流大数据组件在实时分
2025-12-24 00:42:35
1215
原创 基于实时数仓二手车之家分析
本文设计并实现了一个基于Python的二手车数据分析及管理系统,旨在解决二手车市场信息不对称问题。系统采用Selenium爬取二手车之家网站数据,通过Kafka实现实时数据传输,利用Flink进行数据处理和指标计算,并将结果存储至MySQL和Redis数据库。前端使用ECharts实现数据可视化,后端基于Flask框架开发管理系统功能。系统包含车龄分布、价格区间、热门车型等数据分析模块,以及用户管理、车辆管理等业务功能。项目整合了Python、MySQL、Redis、Kafka、Flink等技术栈,实现了从
2025-12-24 00:42:18
1072
原创 大数据应用-大数据主题赛-中国低碳贸易与可再生能源全景洞察
计算机程序设计大赛主题赛省一等奖作品:在全球应对气候变化、金融波动、各国政策变化的背景下,低碳贸易与可再生能源的发展成为实现碳中和目标的关键路径[1]。中国作为全球最大的制造业和出口国,在低碳技术产品贸易和可再生能源领域取得了显著成就。然而,现有研究多停留在理论层面,缺乏实证数据支持。
2025-12-23 17:52:30
1172
原创 电商流量分析与应用
摘要:本项目针对电商平台用户行为数据分析需求,构建了一套完整的大数据处理流程。采用Flume实时采集日志数据至HDFS,通过Hive建立分层数据仓库(ODS/DWD/DWS/ADS),实现数据清洗、转换和聚合分析。重点计算了UV、PV等核心指标,并基于时间、事件、设备等多维度进行统计分析。最终通过FineBI工具实现数据可视化,生成包含趋势图、热力图等分析报表。项目解决了数据采集配置、格式解析、空值处理等技术难点,形成了一套可复用的数据分析框架,为电商运营决策提供了有效的数据支持。
2025-12-23 16:57:00
856
原创 Hive安装步骤
解压并重命名Hive安装包,将解压后的文件夹放置在目录下。添加环境变量,编辑保存后执行使环境变量生效。将MySQL驱动拷贝到Hive的lib。
2025-11-27 23:24:32
244
原创 Flume报错信息汇总
摘要:总结了三个Hadoop集群常见问题及解决方法:(1)Master节点启动失败时,需检查高可用模式状态,将Standby改为Active;(2)Flume版本不兼容导致Topic报错,应确保使用1.70+版本;(3)Kafka消费者无数据时,需验证Topic名称准确性。每个问题解决后均需验证服务状态和数据传输情况。
2025-11-24 09:05:55
475
原创 Flume负载均衡
本文展示了使用三台机器搭建Flume负载均衡系统的配置方案。node01作为数据采集节点,通过NetCat接收数据并使用LoadBalancingSinkProcessor将数据轮询分发至node02和node03。配置细节包括:node01设置两个Avro Sink(端口4141/4142),node02和node03分别配置对应的Avro Source接收数据并输出日志。系统采用内存通道,通过SinkGroup实现负载均衡,支持横向扩展和请求分流。关键点包括SinkGroup定义、故障转移机制配置和端口
2025-11-23 01:49:14
289
原创 Flume故障转移
本文介绍了使用Flume构建故障转移数据管道的实现方案。通过配置三个Flume实例,其中Flume1作为主节点监控44444端口,其Sink组采用Failover策略,将数据优先发送至高优先级Flume2(端口4141),当Flume2故障时自动切换至备用Flume3(端口4142)。配置要点包括:定义Sink组及成员、设置优先级数值(数值越大优先级越高)、确保通道绑定一致。测试验证了故障自动转移和恢复机制,当高优先级Sink恢复后会自动接管流量。该方案有效解决了数据处理中的单点故障问题,提高了系统的可靠性
2025-11-23 01:48:50
888
原创 flume-Channel选择器副本机制
本文介绍了一个基于Flume的双路数据采集方案,用于实时监控文件变更并同步保存到HDFS和本地文件系统。架构采用三层设计:数据采集层(Flume1)通过exec source监控文件变化,使用replicating selector将数据分发到两个channel;数据处理层由Flume2(HDFS输出)和Flume3(本地文件输出)组成,通过Avro协议实现节点间通信。文中详细解析了三个Flume节点的配置参数,包括source、sink和channel的设置,并提供了关键注意事项:路径权限检查、参数优化建
2025-11-22 00:01:44
508
原创 centos Stream9系统从0开始搭建分布式hbase2.4.9
本文档详细记录了HBase分布式集群的安装配置过程,主要包括以下步骤:1)系统环境准备,包括网络配置、主机名设置和SSH免密登录;2)JDK 1.8和Hadoop 3.2.4的安装与配置;3)Zookeeper 3.7.0集群的部署;4)HBase 2.4.9分布式环境的搭建。文档提供了完整的配置文件修改示例,并强调了各组件间的依赖关系和启动顺序。安装过程采用三节点架构(hbase01-03),详细说明了从基础环境配置到最终服务启动的完整流程,为后续HBase学习提供了可靠的运行环境。
2025-11-22 00:00:51
917
原创 Sqoop简介以及使用
Sqoop是一个用于在Hadoop系统(HDFS/Hive/HBase)与关系型数据库(如MySQL、Oracle)之间高效传输批量数据的工具。它通过MapReduce作业实现数据导入导出,支持全表导入、查询导入、指定列导入等多种方式,并能将数据导入Hive或HBase。Sqoop架构简洁,利用JDBC访问数据库元数据,通过并行化MapTask实现高速传输。虽然不支持实时传输,但能有效解决Hadoop与传统数据库间的数据交互问题。典型应用场景包括将MySQL数据导入HDFS/Hive,或将Hive数据导出到
2025-11-21 21:46:29
1121
hbase项目源代码+数据
2025-12-26
2025计算机程序设计大赛中南赛区-大数据主题赛省一作品(碳循绿脉:中国低碳贸易与可再生能源全景洞察)
2025-12-22
本项目属于网络爬虫与数据可视化领域,技术关键词包括 Python 爬虫、HTTP 请求、数据清洗、可视化分析,内容关键词涵盖网页数据采集、结构化存储、图表展示,用于实现网络数据的自动获取与直观分析
2025-12-22
本项目聚焦电商用户行为数据分析,属于数据工程与数据分析领域,技术关键词涵盖日志采集、数据仓库分层、SQL 分析与可视化,内容关键词包括用户访问日志、PV/UV 指标、多维统计,主要用于支撑运营分析决策
2025-12-22
本项目基于工业级卡车 APS 运行数据,综合运用数据预处理、特征工程、不平衡数据处理与多模型对比方法,构建了一套高精度的故障预测模型,为预测性维护提供了可靠的数据挖掘与机器学习解决方案
2025-12-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1