- 博客(41)
- 收藏
- 关注
原创 Flume企业面试题
Flume是一个高可靠的分布式日志采集系统,主要用于实时数据采集和传输。其核心组件包括Source(数据采集)、Channel(数据缓冲)和Sink(数据输出)。Flume通过事务机制保证数据传输可靠性,支持MemoryChannel(高性能)和FileChannel(高可靠)两种存储方式。典型应用场景包括:应用日志采集、用户行为数据收集、多源日志汇聚等。性能调优涉及批量大小、通道容量等参数优化。
2026-02-10 20:54:33
661
原创 Nginx概述与安装配置
Nginx是一款高性能的HTTP/反向代理服务器及邮件代理服务器,具有负载均衡和动静分离功能。文章详细介绍了Nginx的正反向代理原理,正向代理服务于客户端,反向代理服务于服务器端。同时提供了Nginx在CentOS7.9上的完整安装指南,包括依赖环境配置、编译安装步骤、目录结构解析以及启动关闭操作。还涵盖了配置文件说明、虚拟主机设置和HTTPS服务器配置等内容,并给出了设置系统服务实现开机自启动的方法,是Nginx入门和部署的实用参考手册。
2026-02-10 17:00:01
703
原创 HBase进阶
HBase读写流程采用分布式架构,客户端通过Zookeeper定位元数据表(hbase:meta)位置,缓存Region信息后直接与目标RegionServer交互。写流程通过WAL日志和MemStore实现数据持久化,定期刷写为HFile文件,并自动进行Minor/Major合并优化存储。读流程优先查询BlockCache和MemStore,未命中则读取磁盘文件。表设计强调反范式化,通过冗余列族实现数据本地化,避免跨表查询。
2026-02-09 11:58:22
1129
1
原创 Flume概述与基础
Flume是一个分布式、高可用的日志采集系统,用于高效收集、聚合和传输海量日志数据。其核心架构由Source、Channel和Sink组成,支持多种数据源和存储目的地。Flume提供Exec Source、SpoolDir Source和Taildir Source等采集方式,其中Taildir Source兼具实时性和可靠性。在数据输出方面,Flume支持HDFS、Hive和HBase等多种Sink,并可通过配置实现按时间、事件数等条件进行文件滚动。
2026-02-09 11:56:34
746
1
原创 HBase Java API
本文介绍了使用Java API操作HBase数据库的基本方法。首先搭建HBase集群环境并创建Maven项目,添加HBase依赖。通过Connection对象建立与集群的长连接,并演示了Admin管理操作,包括创建/删除命名空间、判断表存在性、创建/删除表等核心功能。文章详细展示了数据操作API,包括put添加数据、get查询单条数据、scan范围扫描以及delete删除数据的方法实现,每个操作都包含参数校验和资源关闭处理。测试案例验证了各API的正确性,为开发者提供了完整的HBase Java API操作
2026-02-05 12:31:51
938
原创 HBase与MR、Hive整合
本文介绍了HBase与MapReduce(MR)的三种整合方式,并通过具体案例展示了实现过程。详细演示了每种场景的代码实现,包括Mapper、Reducer和主程序的编写,以及相关配置和依赖管理。此外,还介绍了HBase与Hive的整合方法,包括内部表和外部表的创建、数据映射关系设置,以及通过Hive操作HBase表数据的注意事项。
2026-02-05 12:17:14
1228
1
原创 HBase实战:通话记录分析
本文介绍了基于HBase实现用户通话记录管理系统的完整开发流程。系统模拟10个用户1年的通话记录,每个用户生成1000条记录,包含手机号、通话时长、对方号码、日期和通话类型等关键字段。重点阐述了HBase表设计(采用手机号+反向时间戳作为rowkey)、数据操作(增删改查)、过滤器应用(前缀过滤和列值过滤)以及Protocol Buffer压缩优化技术。通过对比测试,使用Protocol Buffer序列化后存储空间减少约64.4%,有效提升了存储效率。系统实现了用户通话记录查询、主被叫筛选等核心功能。
2026-02-04 23:23:37
791
原创 HBase优化面试题
本文介绍了HBase的预分区、列族优化、RowKey设计以及读写操作优化的关键技术。预分区通过提前划分Region解决单Region瓶颈,提升读写性能;列族优化包括合理设置数量、缓存、版本数和生命周期;RowKey设计应保证数据均匀分布,可采用哈希、反转或拼接策略;写操作优化包括批量写入、调整缓存和关闭WAL日志;读操作优化包括批量查询、指定列族、客户端缓存和BlockCache配置。这些优化策略能显著提升HBase的性能和扩展性。
2026-02-04 11:38:04
966
原创 HBase概述、架构
HBase基于Hadoop HDFS构建,支持海量数据的实时读写。它采用列式存储,可轻松处理百亿行级别的数据,解决了传统关系型数据库在扩展性上的瓶颈。HBase架构包含RegionServer、Master和Zookeeper等组件,通过自动分片和负载均衡实现高可用性。相比MySQL分库分表方案,HBase具有自动扩容、高效列查询和历史数据版本管理等优势,特别适合大数据场景下的随机读写需求。其数据模型采用行键(RowKey)索引,支持动态列和版本控制,能够灵活应对应对半结构化数据存储需求。
2026-01-26 12:15:26
628
原创 实战:千万级新零售购买行为分析
这是基于Hive的一个数据分析项目,数据来源于阿里天池项目开源出来的数据,更加的贴近于企业的需求。分析了11个指标数据,通过该项目的实战,加深多Hive的理解和使用。
2026-01-25 20:19:08
1335
原创 Hive执行复杂查询报错
本文针对Hive查询中的两类错误提供了解决方案。对于复杂查询执行失败问题,建议调整map和reduce内存分配或改用本地模式运行。对于MapJoin内存耗尽问题,提供了关闭本地MapJoin或调整Yarn内存配置两种方法,包括修改yarn-site.xml中的内存参数并分发到各节点。所有修改后都需要重启Hadoop集群和Hive服务。
2026-01-25 19:54:48
617
原创 Hive SQL(进阶)
本文介绍了Hive SerDe、Hive参数、Hive的运行方式(CLI/脚本)、Hive视图、公共表达式、索引、Hive优化
2026-01-25 19:52:33
778
原创 Hive 函数
本文介绍了Hive中常用的内置函数分类及使用方式,包括数学函数、收集函数、类型转换函数、日期函数、条件函数、字符串函数、聚合函数和表生成函数。重点演示了通过内置函数实现WordCount统计的完整流程,以及开发自定义UDF函数对手机号进行脱敏处理的具体实现步骤。文章提供了丰富的函数语法示例和使用场景,帮助读者掌握Hive函数的核心功能与应用技巧。
2026-01-22 21:08:08
759
原创 Hive核心SQL(基础)
本文介绍了Hive数据定义语言(DDL)、数据操作语言(DML)和数据查询语言(DQL)的核心概念与操作以及实战案例:基站掉话率分析,演示如何高效处理大数据量排序问题。
2026-01-22 20:53:10
941
原创 MySQL基础
文系统介绍了MySQL数据库的核心知识,包括数据类型(整数、浮点、字符、日期等)、SQL语言分类(DQL、DML、DDL等)及基本语法。
2026-01-21 10:29:39
714
原创 Hive输出表信息中文乱码解决方案
摘要:Hive元数据库输出中文出现乱码,原因是COLUMNS_V2等表使用latin1编码而非utf8。检查发现/hive-schema-3.1.0.mysql.sql文件中这些表默认采用latin1字符集。解决方法是通过SQL语句修改相关表的字段编码为utf8,包括COLUMNS_V2的COMMENT字段、TABLE_PARAMS等表的参数值字段,以及分区和索引相关字段的字符集设置。
2026-01-18 20:43:38
630
原创 Hive概述
Hive是Apache开源的数据仓库工具,基于Hadoop实现,可将结构化数据文件映射为表并提供类SQL查询功能。它将HQL转换为MapReduce程序,数据存储在HDFS,适合海量数据分析但对实时性要求不高。与关系型数据库相比,Hive支持读时模式、分区和大规模数据处理,但延迟较高且不支持行级更新。架构包含用户接口、元数据存储、查询处理器(解释器/编译器/优化器/执行器)和HDFS数据存储。优势在于易用的SQL接口和免写MapReduce,但存在表达能力有限和执行效率低的缺点。
2026-01-18 08:45:39
572
2
原创 Hadoop
Hadoop是一个开源的分布式系统基础架构,由Apache基金会开发,用于可靠、高效地存储和处理海量数据。其核心组件包括HDFS(分布式文件系统)、YARN(资源管理)和MapReduce(计算框架)。Hadoop生态圈包含多个关联项目如Hive、Spark、HBase等,支持多样化的大数据处理需求。Hadoop 3.x版本带来了多项改进,包括纠删码存储优化、多NameNode容错、端口冲突解决等新特性。该系统支持多种发行版本(Apache、Cloudera、Hortonworks),并可与云存储服务集成,
2026-01-17 13:43:04
587
原创 实战:好友推荐
本文基于Hadoop MapReduce框架实现了一个好友推荐系统,通过两阶段MapReduce作业计算用户间的间接好友关系。第一阶段MR1处理原始数据,识别直接好友关系并统计间接好友的共同好友数;第二阶段MR2对每个用户的间接好友按共同好友数排序,输出Top2推荐列表。系统采用字典序规范键值对格式,确保关系统计准确性,并通过过滤直接好友关系优化推荐结果。实验结果表明,该系统能有效识别潜在好友关系,为社交网络推荐提供数据支持。
2026-01-17 13:32:33
854
原创 ZooKeeper
摘要:本文探讨了分布式编程中的常见问题及ZooKeeper解决方案。重点分析了活锁问题及其危害,以及集群管理、Leader选举等挑战。详细介绍了ZooKeeper作为分布式协调服务的核心功能,包括配置管理、分布式锁、节点状态管理等应用场景。通过小区物业的类比,生动解释了ZooKeeper的工作原理。最后阐述了ZooKeeper的集群架构、ZAB协议的两阶段(崩溃恢复和消息广播)机制,以及其如何保证数据一致性和高可用性。
2026-01-16 17:46:48
999
原创 实战:温度分析
本文通过一个Hadoop MapReduce案例,演示如何使用Partitioner、SortComparator和GroupingComparator来实现复杂数据处理。案例需求是找出每个月温度最高的两天。文章详细讲解了自定义Weather类设计、分区器实现、排序比较器和分组比较器的实现原理。代码部分展示了完整的Mapper、Reducer和Driver类编写过程,包括数据预处理、二次排序和分组逻辑。最后通过HDFS操作和程序运行测试验证了方案的有效性,成功输出了每个月温度最高的两天数据。
2026-01-16 17:29:37
776
原创 Hadoop序列化与反序列化
Hadoop序列化机制是实现大数据高效处理的关键技术。相比Java原生序列化,Hadoop采用Writable接口实现更紧凑、高效的序列化方案,具有体积小、速度快、可扩展性强等特点。自定义序列化类需实现Writable接口,包含空构造方法、write()序列化方法、readFields()反序列化方法,并保持序列化顺序一致。作为Mapper的key使用时还需实现Comparable接口以支持Shuffle排序。这种轻量级序列化机制有效解决了大数据存储和网络传输的效率问题。
2026-01-15 15:36:02
393
2
原创 实战:单词数量统计案例
本文详细记录了Hadoop MapReduce的WordCount程序运行过程。首先通过Hadoop自带示例jar包执行单词统计时遇到内存配置问题,通过修改mapred-site.xml降低资源请求后成功运行。接着分析了WordCount源码结构,包括Mapper、Reducer和Driver类的实现原理。然后展示了如何手动编写WordCount程序,包括环境搭建、代码实现和本地/集群测试步骤。最后提供了项目代码下载链接,完整呈现了从问题解决到自主实现的MapReduce开发全流程。
2026-01-15 14:14:22
670
原创 Yarn资源调度器
YARN作为Hadoop资源管理系统,采用解耦设计将资源管理与任务调度分离,由ResourceManager和ApplicationMaster协同工作。本文详细解析了YARN的核心架构和工作流程,并通过工厂生产场景进行形象类比。同时提供了YARN高可用(HA)的完整配置方案。最后对比分析了FIFO、CapacityScheduler和FairScheduler三种资源调度器的特性。文中还包含完整的集群启动/停止脚本示例,为构建高可用YARN集群提供实践指导。
2026-01-14 12:05:16
753
2
原创 MapReduce
MapReduce是Hadoop的核心分布式计算框架,采用"分而治之"思想处理海量数据。它将任务分解为Map(拆分并行处理)和Reduce(汇总结果)两个阶段,具有易编程、可扩展、高容错等优点,适合TB级离线数据处理。但存在实时计算、流式计算和DAG计算等局限。工作流程包括map输出、shuffle(排序分区)、reduce处理等环节,其中combiner优化在特定条件下执行。通过Wordcount案例可直观理解其分区、排序、合并等关键流程。
2026-01-14 09:05:29
620
原创 NameNode HA(高可用)
HDFS高可用(HA)机制通过主备NameNode解决单点故障问题,确保7*24小时不间断服务。HA架构包含Active/Standby两个NameNode,通过JournalNodes同步元数据,Zookeeper实现自动故障转移。与SecondaryNameNode不同,StandbyNameNode是真正的热备节点,能无缝接管工作。配置过程包括:设置JournalNodes、格式化NameNode、初始化Zookeeper等,并需解决权限和依赖问题。最终通过脚本实现集群的启停管理,确保Active节点
2026-01-13 10:37:20
820
原创 Zookeeper集群搭建
本文介绍了ZooKeeper 3.5.7分布式集群的安装配置过程。主要内容包括:1)环境准备,包括免密钥设置和JDK配置;2)下载安装ZooKeeper并配置环境变量;3)详细说明zoo.cfg配置文件参数含义及集群节点设置;4)创建数据目录和myid文件;5)将配置同步到其他节点并修改对应myid;6)启动、关闭及连接ZooKeeper的操作命令。文章提供了完整的集群搭建步骤,包括必要的参数解释和注意事项,适合快速部署ZooKeeper集群环境。
2026-01-13 06:22:18
596
原创 HDFS读写流程与Federation
HDFS读写流程解析:写文件时,客户端通过NameNode获取DataNode列表建立传输管道,采用分块写入和确认机制确保数据可靠性;读文件时,客户端直接从最优DataNode获取数据块。HDFS Federation通过多NameNode架构解决单节点内存限制、隔离性和性能瓶颈问题,支持水平扩展和业务隔离。整个流程体现了HDFS高可靠、高吞吐的设计特点。
2026-01-12 10:12:54
1020
原创 HDFS-JavaAPI
本文详细介绍了Hadoop在Windows环境下的开发配置及HDFS API操作指南。主要内容包括:1) Windows环境配置步骤,包括依赖文件部署、环境变量设置;2) Maven项目创建与依赖配置;3) HDFS核心API操作实现,涵盖目录创建、文件上传下载、重命名移动、删除等基本操作;4) 文件信息获取与判断方法;5) 常见问题解决方案(如权限问题处理)。通过完整的代码示例,展示了如何使用Java API与HDFS进行交互,适合Hadoop开发者参考使用。
2026-01-12 09:29:24
1053
原创 Hadoop集群的安全模式
HDFS安全模式机制解析:NameNode启动时先加载元数据并合并日志文件,进入安全模式后只允许读操作,需等待DataNode上报block信息并满足最小副本数要求(默认99.9%)后才会自动退出。管理员可通过命令查看/控制安全模式状态,配置参数包括最小副本数、阈值比例和延续时间。安全模式避免了不必要的block复制,新格式化集群因无block数据会跳过此阶段。关键配置项在hdfs-site.xml中设置,操作命令包括get/enter/leave/wait等模式控制。
2026-01-11 11:21:32
519
原创 HDFS角色分析
摘要:NameNode作为HDFS的核心组件,主要负责存储文件系统的元数据信息,包括文件属性、块位置等。元数据以fsimage镜像文件和editslog日志文件形式持久化存储,其中fsimage记录完整元数据,editslog记录实时操作。SecondaryNameNode定期合并两者以减少NameNode启动时间。DataNode存储实际数据块,通过心跳机制与NameNode保持通信。文章详细分析了NameNode的目录结构、元数据内容、故障恢复方法以及多目录配置方案,并阐述了HDFS的数据存储模型、权限
2026-01-11 11:00:27
1002
原创 HDFS
HDFS(Hadoop分布式文件系统)是为解决大数据存储问题而设计的分布式文件管理系统,适用于一次写入多次读取的场景。其优点包括支持廉价硬件、高容错性、适合存储大文件(GB-TB级)等,但存在延迟高、小文件存储效率低、不支持并发写入等缺点。HDFS采用主从架构,通过目录树定位文件,适合大数据分析应用。
2026-01-10 21:21:59
305
原创 HDFS完全分布式搭建
Hadoop集群部署指南 本文详细介绍了Hadoop完全分布式集群的搭建过程。主要内容包括: 集群规划:4节点部署,分别运行NameNode、SecondaryNameNode和3个DataNode 环境准备:配置服务器间SSH免密登录,安装JDK并设置环境变量 Hadoop安装配置:修改core-site.xml、hdfs-site.xml等核心配置文件 集群启动:解决权限问题后成功启动HDFS,验证Web界面访问 基本操作:演示HDFS文件操作命令和集群管理方式 注意事项:NameNode与Second
2026-01-10 12:55:46
1219
原创 业务分析面试试卷三
Q1:一个网站销售额变低,你从哪几个方面去考量?Q2:现在有一个游戏测试的环节,游戏测试结束后需要根据数据提交一份PPT,这个PPT你会如何安排?包括什么内容?Q3:如果你对楼市不熟悉,现在要你去做一个像58同城之类的,卖房的中介,电商,你会如何进行分析。Q4:某业务部门在上周结束了为期一周的大促,作为业务对口分析师,需要你对活动进行一次评估,你会从哪几方面进行分析?
2025-03-24 23:07:05
949
原创 业务分析面试试卷二
Q1:对游戏的一个功能进行了修改,如何测试修改的效果?以及如何保证测试结果的有效性?Q2:请给出180日RPI预估的方法Q3:请问你认为数据分析岗需要具备哪些能力?自我评估相应能力如何?Q4:请问你之前用EXCEL吗?如果用,用的多的功能或模块有哪些?
2025-03-23 20:39:34
1110
原创 Python试卷二
单选题Q:下列语句输出结果是()。问答题Q1:请写出一段Python代码实现删除一个list里面的重复元素Q2:Python中字符串的三种表现形式材料题Q1:数据读取和保存Q2:数据清洗和统计描述Q3.数据预处理Q4:数据探索性分析
2025-03-21 20:07:19
874
原创 业务分析面试试卷一
问答题:1.假如你临时接到领导通知需要做一个材料,请问你会怎么做2.我们是呼叫中心型项目,对于你现在应聘的这个岗位,你认为需要关注哪些方面/指标?材料题:1.一次性采购与逐步采购的优缺点比较,及选择方案。2.新版页面是否能够提高商品详情页到支付页的转化率,并决定是否要覆盖旧版,你能为决策提供哪些信息,需要收集哪些指标,给出统计方法及过程。
2025-03-20 16:04:35
1165
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅