
大数据
文章平均质量分 87
记录在工作和学习过程中,大数据开发时可以遇到的bug以及一些经典的案例,旨在不断定期复习相关技术要点,不断提升编码能力,提升排错能力!
岁月的眸
认定学习目标,不断提升自我!
展开
-
Hadoop-HA高可用集群启动nameNode莫名挂掉,排错解决
我们在执行start-dfs.sh的时候,默认启动顺序是namenode => datanode => journalnode => zkfc,如果journalnode和namenode不在一台机器启动的话,很容易因为网络延迟问题导致NN无法连接JN,无法实现选举,最后导致刚刚启动的namenode会突然挂掉一个主的,留下一个standy的,虽然有NN启动时有重试机制等待JN的启动,但是由于重试次数限制,可能网络情况不好,导致重试次数用完了,也没有启动成功。先启动journalnode,再启动dfs。原创 2025-05-21 17:06:37 · 463 阅读 · 0 评论 -
NVIDIA A6000(48GB显存)可以全参量训练什么开源模型?
1.2B参数模型在单卡上约3-5天可完成预训练(BookCorpus+Wikipedia)。:基于Byte-Pair Encoding(BPE),减少词表膨胀问题。: - 适合生成任务,社区支持完善,显存占用低,训练周期可控。: - 直接支持非英语任务,减少数据预处理成本。:避免频繁切换任务类型,建议分阶段训练(预训练→微调)。:天然支持文本到文本(text-to-text)任务。:类GPT-3的解码器(Decoder-only)-:编码器-解码器(Encoder-Decoder)-原创 2025-02-15 02:15:31 · 756 阅读 · 0 评论 -
ubuntu安装mysql8.0.35过程和报错处理
ubuntu安装mysql8.0.35过程和报错处理原创 2023-11-11 11:03:21 · 1861 阅读 · 0 评论 -
Apache Flink 1.12.0 on Yarn(3.1.1) 所遇到的問題
Flink on yarn提交任务报错ERROR org.apache.flink.yarn.cli.FlinkYarnSessionCli [] - Error while running the Flink session. org.apache.flink.client.deployment.ClusterDeploymentException: Couldn't deploy Yarn session cluster原创 2023-11-04 13:36:29 · 1158 阅读 · 0 评论 -
网易Impala集群优化和高可用负载均衡配置和虚拟数仓
网易Impala集群优化和高可用负载均衡配置和虚拟数仓转载 2023-09-20 12:56:50 · 734 阅读 · 0 评论 -
Hive集群高可用配置与impala集群高可用配置
使用Zookeeper实现了HiveServer2的HA功能(ZooKeeper Service Discovery),Client端可以通过指定一个nameSpace来连接HiveServer2,而不是指定某一个host和portMetastore高可用原理:Hive Metastore客户端始终使用第一个url连接到metastore服务器,如果Metastore服务器变得无法访问,则客户端从列表中随机选取一个url并尝试与之建立连接。原创 2023-09-20 01:54:55 · 978 阅读 · 0 评论 -
大数据平台迁移后yarn连接zookeeper 异常分析
XX保险HDP大数据平台机房迁移异常分析,事件:1. 机房迁移后大部分组件都能正常启动,2. Yarn 启动后8088 8042等端口无法访问 3. Hive spark 作业提交到yarn会出现卡死。备注迁移但IP不变。原创 2023-09-12 09:24:24 · 515 阅读 · 0 评论 -
如何为虚拟机添加磁盘,扩充原有分区的磁盘空间
虚拟机关机的状态下,在 VMware 当中新增一块磁盘,选中左边要添加磁盘的虚拟机镜像,然后鼠标右键点击设置。选中磁盘点击添加点击下一步,悬着SCSI这个选项继续点下一步,点击创建新虚拟磁盘根据自己的需要选择最大磁盘大小,然后选择将虚拟磁盘拆分为多个文件。最后点击完成。原创 2023-09-09 15:05:53 · 6037 阅读 · 0 评论 -
使用Akka的Actor模拟Spark的Master和Worker工作机制
使用Akka的Actor模拟Spark的Master和Worker工作机制原创 2023-09-04 18:39:16 · 792 阅读 · 0 评论 -
Scala的函数式编程与高阶函数,匿名函数,偏函数,函数的闭包、柯里化,抽象控制,懒加载等
Scala的函数式编程与高阶函数,匿名函数,偏函数,函数的闭包、柯里化,抽象控制,懒加载等原创 2023-09-03 14:09:50 · 658 阅读 · 0 评论 -
Scala的隐式转换
scala隐式转换原创 2023-09-03 00:14:41 · 976 阅读 · 0 评论 -
Scala的模式匹配
Scala模式匹配原创 2023-09-02 23:18:45 · 585 阅读 · 0 评论 -
Scala的队列与并行集合
在 Scala 中,队列和并行集合是常用的数据结构和并发编程工具。原创 2023-09-02 21:48:43 · 812 阅读 · 0 评论 -
Scala集合常用函数与集合计算简单函数,高级计算函数Map和Reduce等
Scala集合常用函数与集合计算简单函数,高级计算函数Map和Reduce等原创 2023-09-01 20:20:01 · 825 阅读 · 2 评论 -
Scala的集合操作之可变数组和不可变数组,可变List集合与不可变List集合,可变Set与不可变Set操作,可变和不可变Map集合和元组操作
【代码】Scala的集合操作之可变数组和不可变数组,可变List集合与不可变List集合。原创 2023-09-01 14:14:06 · 960 阅读 · 0 评论 -
Scala中的样例类和样例对象和JAVA存根类
在 Scala 中,样例类(case class)和样例对象(case object)是两种特殊的类和对象,它们具有以下特性:样例类是用来表示不可变数据的类。编译器会自动生成一些额外的方法,如基于构造参数的equalshashCodetoString等。样例类可以使用模式匹配来进行对象解构。area")area")printArea(circle) // 输出:圆的面积为:78.53981633974483printArea(rectangle) // 输出:矩形的面积为:12.0。原创 2023-09-01 09:10:25 · 1561 阅读 · 0 评论 -
内卷的本质和大数据在计量经济学领域的运用思考
我们带着以上四个问题去思考,在这里我谈谈个人的一些观点和具体的看法。若有说的不正确的地方,望贻笑大方!原创 2023-08-27 13:31:11 · 851 阅读 · 0 评论 -
彻底搞明白YARN资源分配
Container是以什么形式运行的?是单独的JVM进程吗?是的,每一个Container就是一个单独的JVM进程。YARN的vcore和本机的CPU核数关系?没关系。默认都是手动在yarn-default.xml中配置的,默认每个NodeManager是8个vcore,所有的NodeManager上的vcore加在一起就是整个YARN所有的vcore。每个Container能够使用的物理内存和虚拟内存是多少?转载 2023-07-28 12:22:02 · 2929 阅读 · 0 评论 -
Hadoop的OutputFormat类
OutputFormat是一个用于描述MapReduce作业的输出格式和规范的抽象类,位于org.apache.Hadoop.mapreduce.OutputFormat. Mapreduce框架依靠文件输出格式完成输出规范检查(如检查目录是否存在),并为文件输出格式提供作业结果数据输出的功能,即提供RecordWriter的实现,输出文件被存储在文件系统FileSystem中。TextOutputFormat类 是默认的输出格式,它把每条记录写成文本行。原创 2023-06-20 21:46:36 · 629 阅读 · 0 评论 -
DolphinScheduler海豚调度教程
DolphinScheduler 教程Apache DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。解决数据研发ETL 错综复杂的依赖关系,不能直观监控任务健康状态等问题。DolphinScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作DAG监控界面,所有流程定义都是可视化,通过拖拽任务定制DAG,通过API方式与第三方系统对接, 一键部署去中心化的多Master和多Worker原创 2023-05-04 21:16:01 · 16262 阅读 · 3 评论 -
Hadoop笔记整理
Hadoop一. 引言1.1 什么是大数据大数据:(Big Data):数据量级很大的应用处理。TB级 ,日数据增长GB级K -- M---- G ---- T ----PB ---- EB ---ZB 1024通过对海量数据进行分析,挖掘,进而发现数据内在的规律,从而为企业或者国家创造价值。1.2 大数据特点4V 是大数据典型的特点具体指的是:# 1.Volume (大量) 数据量很大,至少是TB或者日均增加GB级# 2.Variety (多样) a.结构化数据 :原创 2023-04-19 12:50:05 · 864 阅读 · 0 评论 -
关于Java连接Hive,Spark等服务的Kerberos工具类封装
关于Java连接Hive,Spark等服务的Kerberos工具类封装原创 2023-03-04 13:33:30 · 1499 阅读 · 0 评论 -
Kerberos认证原理与使用教程
Kerberos认证原理与使用教程原创 2023-02-21 23:22:35 · 10436 阅读 · 0 评论 -
Spark读取Hive数据的两种方式与保存数据到HDFS
Spark读取Hive数据的两种方式与保存数据到HDFS原创 2023-02-02 21:03:05 · 4943 阅读 · 0 评论 -
yarn的常用命令
yarn常用命令:1.yarn application 查看任务(1)列出所有Applicationyarn application -list(2)根据 Application 状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)2.yarn logs 查看日志(1)查看Application 日志yarn logs原创 2023-01-05 00:30:09 · 9329 阅读 · 0 评论 -
CDP集群卸载过程
CDP集群卸载过程原创 2022-12-31 17:43:55 · 1747 阅读 · 0 评论 -
cdp集群安装好后hive启动查询库报错No current connection
cdp集群安装好后hive启动查询库报错No current connection原创 2022-12-10 23:49:23 · 2726 阅读 · 2 评论 -
DataX详解
dataX详解原创 2022-11-07 18:15:39 · 1089 阅读 · 0 评论 -
CDP集群搭建过程和bug处理
cdp安装全过程和遇到bug处理原创 2022-11-07 15:52:13 · 4504 阅读 · 9 评论 -
记录SparkSql向hive的动态分区表插入数据失败的bug问题
记录SparkSql向hive的动态分区表插入数据失败的bug问题原创 2022-11-01 16:34:23 · 1593 阅读 · 0 评论 -
Hive未关闭表的事务功能(ACID)所引发的一系列Bug问题
Hive 未关闭表的事务功能(ACID)的问题原创 2022-10-31 00:02:50 · 2405 阅读 · 1 评论 -
hive与impala相关
impala和hive的笔记原创 2022-10-25 23:46:36 · 1204 阅读 · 0 评论 -
CDH集群hadoop的资源调度yarn优化与Spark优化
CDH集群hadoop的资源调度yarn常用配置优化与资源池的配置原创 2022-10-11 13:40:48 · 3279 阅读 · 0 评论 -
AWK用法全解与sed去掉sql最后一个字段哪一行的逗号
AWK用法全解与Sed去掉sql最后一个字段哪一行的逗号原创 2022-09-30 19:47:31 · 1497 阅读 · 0 评论 -
SparkSql读取外部Hql文件的公共类开发
SparkSql读取外部Hql文件并执行和传参的公共类开发原创 2022-09-17 14:02:26 · 1300 阅读 · 0 评论 -
Kerberos新创建yarn主体,CDH集群CM页面重启RM失败
日常bug记录原创 2022-09-08 11:19:52 · 199 阅读 · 0 评论 -
大数据之Kerberos认证与kafka开启Kerberos配置
Kerberos 是一种计算机网络认证协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、保护数据完整性等场合,是一种应用对称密钥体制进行密钥管理的系统。.........原创 2022-08-06 14:07:18 · 8029 阅读 · 0 评论 -
跨集群拷贝Distcp性能测试
distcp+shell脚本实现跨集群数据迁移原创 2022-07-13 22:00:17 · 3884 阅读 · 0 评论 -
linux的一些命令和hadoop的一些命令
linux的一些命令和hadoop的一些命令原创 2022-07-10 00:01:39 · 747 阅读 · 0 评论 -
大数据离线集群数据迁移实战项目
大数据离线集群数据迁移与元数据迁移原创 2022-07-09 23:54:49 · 2218 阅读 · 0 评论