杜拉拉版小鱼-CSDN博客

原创三面技术（运维）

在Hadoop2.x之后的版本中，文件块的默认大小是128M，老版本中默认是64M；3、迁移过来，要确保数据一致性和完整性查：count(*)orcle 一般多少多少条（测试数据用的200多万条，每天大概增量数据 10个 200-300万条和全量数据有一千万）1、mysql中建有orcle对应的表，mysql有些数据类型不一样，比如：vachar,把orclr存。看orcle对应的数据类型和mysql有什么不一样，和orcle不一样的对应存储。（数据迁移的步骤，纯听他人口述）

2024-07-30 14:16:45 666

原创 Hive复习

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。做海量数据的分析计算。

2024-06-07 16:11:01 1033

原创 Zookeeper复习

zookeeper=文件系统+通知机制。

2024-06-05 11:49:07 1426

原创 MapReduce复习

82-125跳过去。

2024-06-04 13:45:12 608

原创 hdfs复习

1）.高可靠性：hadoop底层多个数据副本，即使某个计算节点存储出现故障，不会导致数据丢失。2）.高扩展性：可以动态增加服务器节点。3）.高效性：在MapReducer思想下，hadoop并行工作，加快任务处理速度。4）.高容错性：能将失败的任务，进行自动分配。

2024-06-03 15:08:54 885

原创 5月29日-shell复习

1.归档文件归档命令：tar自动归档：crontab -l。

2024-06-01 15:09:09 998

原创 TCHouse-C

地域（Region）指腾讯云数据仓库 TCHouse-C 物理服务器所在的地理区域。腾讯云不同地域之间网络完全隔离，购买后不能更换。地域一旦选定，购买后无法更改。2.

2024-04-14 17:14:30 1140

原创常见的系统进程

Load average 是 CPU 负载的评估，其值越高，说明其任务队列越长，处于等待执行的任务越多。通过 top 观察，类似如下图所示，CPU 很空闲，但是 load average 却非常高。安全组是一种有状态的包过滤虚拟防火墙，用于设置单台或多台云服务器的网络访问控制，是腾讯云提供的重要的网络安全隔离手段。System Idle Process：系统空间进程，显示 CPU 空闲时间百分比。执行以下命令，查看进程状态，并检查是否存在 D 状态进程。svchost：系统进程，用于执行 DLL。

2024-04-14 13:45:34 306

原创弹性 MapReduce（EMR）

Windows 安装目录是。CoreOs 安装目录是。Linux 安装目录是。

2024-04-14 12:28:39 353

原创 Linux入门

RPM（RedHat Package Manager），RedHat软件包管理工具，类似windows里面的setup.exe是Linux这系列操作系统里面的打包安装工具，它虽然是RedHat的标志，但理念是通用的。RPM包的名称格式。

2024-03-18 19:54:28 1096

原创解决idea各种奇葩报错（前提代码正确）

3.重新打开工程，基本上可以解决（具体情况具体分析）1.当idea中报错，把idea系统关掉。2.删除.idea中原有的配置。

2024-03-10 16:26:13 516

原创新IDEA电脑环境设置

1.设置UTF-82.Maven3.JRE选对。

2024-03-10 16:22:01 655 1

原创数仓面试-2024/03/06 第二个面试

Hadoop作业调度器主要有三种：FIFO、容量（Capacity Scheduler）和公平（Fair Scheduler）。的资源调度器是Capacity Scheduler。框架默认调度器是Fair Scheduler。4.spark这一块，spark的关联方式。2.hadoop有哪些组件，作用的一系列。3.yarn的任务调度（我没印象）1.把一个表插另外一个表。（先做题--题放最后）5.大表join小表。

2024-03-06 23:55:58 431

原创数仓开发-2023/2/29

14.有用过dws层直接对接bi嘛？mysql数据库有用吗？6.说下你之前公司来，你的技能层次在每个公司？你怎么评价你的技能？13.数据可视化界面怎么做的？bi你们讲解是谁负责。8.数仓的分层，分几层？按照数据域分层，问几层？7.你的之前业务主要是做什么？10.非本专业怎么进行后续学习的？2.介绍下之前的公司离线数仓项目。3.sql和hivesql区别？9.sql优化一般怎么优化的？11.系统函数怎么用的？12.数据迁移怎么做的？4.sql的执行顺序？

2024-03-05 20:49:36 446

原创数仓开发-面试二

9.比如sql执行需要1分钟，现在效率低，要你优化到500ms（这个时候500行sql,你咋定位问题呢？怎么查看作业执行计划？（本身sql语句没有问题，可能数据存在问题，要不是表结构，要不逻辑问题）8.mysql离线查作业执行计划，如，你写个sql500，这个时候你怎么定位问题，查看问题。怎么执行作业执行计划。11.此岗位非偏hive（公司企业有20-30个系统）找ETL,需要适合多数据库，做报表开发。2.数据抽取中间件 flink,kettle。3.flink本身的优点和缺点。1.finebi使用。

2024-03-05 20:45:50 592

原创数仓面试 2024/03/04面一

1.自我介绍，讲项目（主要讲怎么做的，解决哪些问题）2.HiveSQL的执行流程（这个我理解错意了，理解成hivesql真正执行的顺序（运行顺序了！！！））3.hive的数据源有哪些？4.linux命令（基础命令）5.sql一个逻辑过程（sql竹盖不能）6.搭建集群过程中遇到问题，关于组件信息7.分桶表和分区表的区别，分桶表的设计未来解决什么问题8.redis用过吗，在项目中用来干什么9.用的mysql哪个版本？数据库用什么？10.ETL开发流程和设计11.你遇到的问

2024-03-05 20:45:08 556

原创面试题数仓开发2024/3/5

12.spark（spark算子，和sparksql）,hbase,flink。3.底层原理 hadoop mr hive yarn，spark的底层原理。7.hive和clichhouse数据库sql语法的熟悉。10.有端到端的数据项目（从数据化采集到数据可视化）4.sql做题6道（主要用日期差，连续，拉链表）8.bi 前端的展现（报表，仪表盘，自助分析）11.实时数仓开发经验。

2024-03-05 19:51:03 517

原创大数据运维面试1

1、OBS对象储存，hive不兼容怎么办；2、hive报错的话怎么去排除；4、组建主要熟悉哪一些（组建报错、搭建问题如：hiveserver、 hms各自作用、yarn日志查询））3、hive外部客户端访问不通（连接超时会是什么原因）---排查思路（客户有时传达的故障比较模糊）；5、hadoop-HA的优势；6、熟悉哪些开发工具；

2024-03-05 19:27:16 900

原创个人数仓开发面试题记录

第一个job会将map端数据随机输入reducer，每个reducer做部分聚合操作，相同的group by key会分布在不同的reducer中。第二个job再将前面预处理过的数据按key聚合并输出结果，这样就起到了均衡的效果。对于处理小数据量的任务，我们不需要通过集群模式进行处理（因为为该任务实际触发的job执行等开销可能比实际任务的执行时间还要长），Hive可以通过本地模式在单台机器上处理所有的任务。1）map端预聚合 (预聚合的配置参数为hive.map.aggr，默认值true)

2024-03-04 13:05:59 1112

原创数据清洗(必会)

数据清洗***

2024-03-04 12:39:26 1008

原创 SQL的书写顺序（必会笔记）

随着Mysql版本的更新换代，其优化器也在不断的升级，优化器会分析不同执行顺序产生的性能消耗不同而动态调整执行顺序。外连接的结果集: 主表取所有，从表取匹配. 主表与从表未匹配的数据通过null来补全.外连接确定主从表: 左外连左主右从，右外连右主左从！

2024-03-04 12:31:51 785

转载 Hive SQL调优技巧

数据分区是一种将数据按照某个字段进行分组存储的技术，可以有效减少查询时的数据扫描量。通过分区字段进行数据过滤，可以只对目标分区进行查询，加快查询速度。优化案例优化前：1.优化后：1.反面案例代码写死日期，一次性不合理扫描2年+日志数据。map数超20万，而且会越来越大，直到跑不出来。1.3.5 使用索引在Hive SQL中，可以通过创建索引来加速查询操作。通过在关键字段上创建索引，可以减少数据扫描和过滤的时间，提高查询性能。

2024-03-04 12:22:24 436

原创 SQL语法顺序与执行顺序

2.执行顺序1.FORM：选择from后面跟的表，产生虚拟表1。2.ON：ON是JOIN的连接条件，符合连接条件的行会被记录在虚拟表2中。3.JOIN：如果指定了LEFT JOIN，那么保留表中未匹配的行就会作为外部行添加到虚拟表2中，产生虚拟表3。如果有多个JOIN链接，会重复执行步骤1~3，直到处理完所有表。4.WHERE：对虚拟表3进行WHERE条件过滤，符合条件的记录会被插入到虚拟表4中。5.GROUP BY：根据GROUP BY子句中的列，对虚拟表2中的记录进行分组操作，产生虚拟表5。6.HA

2024-03-04 11:55:42 655

原创离线数仓实时数仓的存储

1.离线数仓选星型模型，实时数仓选雪花模型。3.明确数据域--小组内分工合作。2.实时数仓没有历史数据。4.实时数仓框架选型。

2024-03-02 00:38:59 388

原创 HA集群的启动命令（离线-实时数仓）

脚本：zk.sh start三台集群命令：bin/zkServer.sh start查看状态：bin/zkServer.sh status。

2024-02-29 00:26:29 1618

原创 Hadoop集群手动主备切换（Active - Standby）

方案一：命令切换。

2024-02-28 20:53:29 2530

原创 kill 掉进程快捷键

kill -9 按alt+ins 干掉进程。

2024-02-28 20:14:27 512

原创 Hive的Rank排名（rank函数，dense_rank函数，row_numer函数）

首先三者都是产生一个自增序列，不同的是。dense_rank() 排序的字段值相同时序列号会重复且下一个序列号继续序号自增，如：1、2、2、3、4（出现两个2，继续按照3编号）rank() 排序的字段值相同时序列号会重复且下一个序列号跳过重复位，如：1、2、2、4、5（出现两个2，跳过序号3，继续编号4）row_number() 排序的字段值相同时序列号不会重复，如：1、2、(2)3、4、5（出现两个2，第二个2继续编号3）

2024-02-27 22:23:54 1686

原创在Web UI上提交Flink作业

1）任务打包完成后，我们打开Flink的WEB UI页面，在右侧导航栏点击“Submit New Job”，然后点击按钮“+ Add New”，选择要上传运行的JAR包。，任务运行所需的配置参数和保存点路径等，如下图所示，配置完成后，即可点击按钮“Submit”，将任务提交到集群运行。（3）任务提交成功之后，可点击左侧导航栏的“Running Jobs”查看程序运行列表情况。（2）点击该JAR包，出现任务配置页面，进行相应配置。JAR包上传完成，如下图所示。程序入口主类的全类名。

2024-02-27 10:47:31 1918

原创 Provide统一配置application

2024-02-27 09:48:19 378

原创 netcat（nc）下载及基本使用

netcat（nc）下载及基本使用 - 知乎

2024-02-26 22:04:28 817

原创 idea设置

① 允许同时启动多个idea运行环境（注：port不能写死，不然会报异常）一般公司网络是局域网络，需要配置proxy。设置自己习惯的快捷键模式。自动添加和移除jar包。④ jre运行环境配置。

2024-02-26 21:48:09 433

原创 Flink代码单词统计 ---批处理

解决办法：log4j没有配置日志记录的位置，需要配置log4j.properties，在src目录main目录resources文件夹下下新建log4j.properties。在项目的pom文件中，添加Flink的依赖，包括flink-java、flink-streaming-java，以及flink-clients（客户端，也可以省略）。环境准备：在src/main/java目录下，新建一个包，命名为com.atguigu.wc。需求：统计一段文字中，每个单词出现的频次。⑤.就是对应单词的频次。

2024-02-25 23:20:57 980

JDK 的下载、安装与配置

idea设置,进公司必备

如何安装Notepad++文本编辑器？

空空如也