自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 收藏
  • 关注

原创 TCHouse-C

地域(Region)指腾讯云数据仓库 TCHouse-C 物理服务器所在的地理区域。腾讯云不同地域之间网络完全隔离,购买后不能更换。地域一旦选定,购买后无法更改。2.

2024-04-14 17:14:30 771

原创 常见的系统进程

Load average 是 CPU 负载的评估,其值越高,说明其任务队列越长,处于等待执行的任务越多。通过 top 观察,类似如下图所示,CPU 很空闲,但是 load average 却非常高。安全组是一种有状态的包过滤虚拟防火墙,用于设置单台或多台云服务器的网络访问控制,是腾讯云提供的重要的网络安全隔离手段。System Idle Process:系统空间进程,显示 CPU 空闲时间百分比。执行以下命令,查看进程状态,并检查是否存在 D 状态进程。svchost:系统进程,用于执行 DLL。

2024-04-14 13:45:34 146

原创 弹性 MapReduce(EMR)

Windows 安装目录是。CoreOs 安装目录是。Linux 安装目录是。

2024-04-14 12:28:39 179

原创 Linux入门

RPM(RedHat Package Manager),RedHat软件包管理工具,类似windows里面的setup.exe是Linux这系列操作系统里面的打包安装工具,它虽然是RedHat的标志,但理念是通用的。RPM包的名称格式。

2024-03-18 19:54:28 958

原创 解决idea各种奇葩报错(前提代码正确)

3.重新打开工程,基本上可以解决(具体情况具体分析)1.当idea中报错,把idea系统关掉。2.删除.idea中原有的配置。

2024-03-10 16:26:13 402

原创 新IDEA电脑环境设置

1.设置UTF-82.Maven3.JRE选对。

2024-03-10 16:22:01 547 1

原创 数仓面试-2024/03/06 第二个面试

Hadoop作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。的资源调度器是Capacity Scheduler。框架默认调度器是Fair Scheduler。4.spark这一块,spark的关联方式。2.hadoop有哪些组件,作用的一系列。3.yarn的任务调度(我没印象)1.把一个表插另外一个表。(先做题--题放最后)5.大表join小表。

2024-03-06 23:55:58 355

原创 数仓开发-2023/2/29

14.有用过dws层直接对接bi嘛?mysql数据库有用吗?6.说下你之前公司来,你的技能层次在每个公司?你怎么评价你的技能?13.数据可视化界面怎么做的?bi你们讲解是谁负责。8.数仓的分层,分几层?按照数据域分层,问几层?7.你的之前业务主要是做什么?10.非本专业怎么进行后续学习的?2.介绍下之前的公司离线数仓项目。3.sql和hivesql区别?9.sql优化一般怎么优化的?11.系统函数怎么用的?12.数据迁移怎么做的?4.sql的执行顺序?

2024-03-05 20:49:36 388

原创 数仓开发-面试二

9.比如sql执行需要1分钟,现在效率低,要你优化到500ms(这个时候500行sql,你咋定位问题呢?怎么查看作业执行计划?(本身sql语句没有问题,可能数据存在问题,要不是表结构,要不逻辑问题)8.mysql离线查作业执行计划,如,你写个sql500,这个时候你怎么定位问题,查看问题。怎么执行作业执行计划。11.此岗位非偏hive(公司企业有20-30个系统)找ETL,需要适合多数据库,做报表开发。2.数据抽取中间件 flink,kettle。3.flink本身的优点和缺点。1.finebi使用。

2024-03-05 20:45:50 430

原创 数仓面试 2024/03/04面一

1.自我介绍,讲项目(主要讲怎么做的,解决哪些问题)2.HiveSQL的执行流程(这个我理解错意了,理解成hivesql真正执行的顺序(运行顺序了!!!))3.hive的数据源有哪些?4.linux命令(基础命令)5.sql一个逻辑过程(sql竹盖不能)6.搭建集群过程中遇到问题,关于组件信息7.分桶表和分区表的区别,分桶表的设计未来解决什么问题8.redis用过吗,在项目中用来干什么9.用的mysql哪个版本?数据库用什么?10.ETL开发流程和设计11.你遇到的问

2024-03-05 20:45:08 353

原创 面试题数仓开发2024/3/5

12.spark(spark算子,和sparksql),hbase,flink。3.底层原理 hadoop mr hive yarn,spark的底层原理。7.hive和clichhouse数据库sql语法的熟悉。10.有端到端的数据项目(从数据化采集到数据可视化)4.sql做题6道(主要用日期差,连续,拉链表)8.bi 前端的展现(报表,仪表盘,自助分析)11.实时数仓开发经验。

2024-03-05 19:51:03 378

原创 大数据运维面试1

1、OBS对象储存,hive不兼容怎么办;2、hive报错的话怎么去排除;4、组建主要熟悉哪一些(组建报错、搭建问题如:hiveserver、 hms各自作用、yarn日志查询))3、hive外部客户端访问不通(连接超时会是什么原因)---排查思路(客户有时传达的故障比较模糊);5、hadoop-HA的优势;6、熟悉哪些开发工具;

2024-03-05 19:27:16 469

原创 个人数仓开发面试题记录

第一个job会将map端数据随机输入reducer,每个reducer做部分聚合操作,相同的group by key会分布在不同的reducer中。第二个job再将前面预处理过的数据按key聚合并输出结果,这样就起到了均衡的效果。对于处理小数据量的任务,我们不需要通过集群模式进行处理(因为为该任务实际触发的job执行等开销可能比实际任务的执行时间还要长),Hive可以通过本地模式在单台机器上处理所有的任务。1)map端预聚合 (预聚合的配置参数为hive.map.aggr,默认值true)

2024-03-04 13:05:59 804

原创 数据清洗(必会)

数据清洗***

2024-03-04 12:39:26 867

原创 SQL的书写顺序(必会笔记)

随着Mysql版本的更新换代,其优化器也在不断的升级,优化器会分析不同执行顺序产生的性能消耗不同而动态调整执行顺序。外连接的结果集: 主表取所有,从表取匹配. 主表与从表未匹配的数据通过null来补全.外连接确定主从表: 左外连左主右从, 右外连右主左从!

2024-03-04 12:31:51 387

转载 Hive SQL调优技巧

数据分区是一种将数据按照某个字段进行分组存储的技术,可以有效减少查询时的数据扫描量。通过分区字段进行数据过滤,可以只对目标分区进行查询,加快查询速度。优化案例优化前:1.优化后:1.反面案例代码写死日期,一次性不合理扫描2年+日志数据。map数超20万,而且会越来越大,直到跑不出来。1.3.5 使用索引在Hive SQL中,可以通过创建索引来加速查询操作。通过在关键字段上创建索引,可以减少数据扫描和过滤的时间,提高查询性能。

2024-03-04 12:22:24 31

原创 SQL语法顺序与执行顺序

2.执行顺序1.FORM:选择from后面跟的表,产生虚拟表1。2.ON:ON是JOIN的连接条件,符合连接条件的行会被记录在虚拟表2中。3.JOIN:如果指定了LEFT JOIN,那么保留表中未匹配的行就会作为外部行添加到虚拟表2中,产生虚拟表3。如果有多个JOIN链接,会重复执行步骤1~3,直到处理完所有表。4.WHERE:对虚拟表3进行WHERE条件过滤,符合条件的记录会被插入到虚拟表4中。5.GROUP BY:根据GROUP BY子句中的列,对虚拟表2中的记录进行分组操作,产生虚拟表5。6.HA

2024-03-04 11:55:42 327

原创 离线数仓实时数仓的存储

1.离线数仓选星型模型,实时数仓选雪花模型。3.明确数据域--小组内分工合作。2.实时数仓没有历史数据。4.实时数仓框架选型。

2024-03-02 00:38:59 298

原创 HA集群的启动命令(离线-实时数仓)

脚本:zk.sh start三台集群命令:bin/zkServer.sh start查看状态:bin/zkServer.sh status。

2024-02-29 00:26:29 1246

原创 Hadoop集群 手动主备切换 (Active - Standby)

方案一:命令切换。

2024-02-28 20:53:29 813

原创 kill 掉进程快捷键

kill -9 按alt+ins 干掉进程。

2024-02-28 20:14:27 348

原创 Hive的Rank排名(rank函数,dense_rank函数,row_numer函数)

首先三者都是产生一个自增序列,不同的是。dense_rank() 排序的字段值相同时序列号会重复且下一个序列号继续序号自增,如:1、2、2、3、4(出现两个2,继续按照3编号)rank() 排序的字段值相同时序列号会重复且下一个序列号跳过重复位,如:1、2、2、4、5(出现两个2,跳过序号3,继续编号4)row_number() 排序的字段值相同时序列号不会重复,如:1、2、(2)3、4、5(出现两个2,第二个2继续编号3)

2024-02-27 22:23:54 659

原创 在Web UI上提交Flink作业

1)任务打包完成后,我们打开Flink的WEB UI页面,在右侧导航栏点击“Submit New Job”,然后点击按钮“+ Add New”,选择要上传运行的JAR包。,任务运行所需的配置参数和保存点路径等,如下图所示,配置完成后,即可点击按钮“Submit”,将任务提交到集群运行。(3)任务提交成功之后,可点击左侧导航栏的“Running Jobs”查看程序运行列表情况。(2)点击该JAR包,出现任务配置页面,进行相应配置。JAR包上传完成,如下图所示。程序入口主类的全类名。

2024-02-27 10:47:31 651

原创 Provide统一配置application

2024-02-27 09:48:19 321

原创 netcat(nc)下载及基本使用

netcat(nc)下载及基本使用 - 知乎

2024-02-26 22:04:28 371

原创 idea设置

① 允许同时启动多个idea运行环境(注:port不能写死,不然会报异常)一般公司网络是局域网络,需要配置proxy。设置自己习惯的快捷键模式。自动添加和移除jar包。④ jre运行环境配置。

2024-02-26 21:48:09 357

原创 Flink代码单词统计 ---批处理

解决办法:log4j没有配置日志记录的位置,需要配置log4j.properties,在src目录main目录resources文件夹下下新建log4j.properties。在项目的pom文件中,添加Flink的依赖,包括flink-java、flink-streaming-java,以及flink-clients(客户端,也可以省略)。环境准备:在src/main/java目录下,新建一个包,命名为com.atguigu.wc。需求:统计一段文字中,每个单词出现的频次。⑤.就是对应单词的频次。

2024-02-25 23:20:57 627

原创 git 获取仓库代码与提交代码

打开安装程序后,一直点击下一步,直到以下位置:此处代表使用VIM作为Git默认的编辑器。继续下一步,直到:这里选择第一项,即仅仅在Bash中使用Git。如果有Linux的学习经历,使用Bash是最好的选择。之后一直点击下一步,直到结束。

2024-02-25 15:34:37 382

原创 Clickhouse的安装

确定防火墙处于关闭状态ulimit -a2.(1)在hadoop102的文件的末尾加入以下内容sudo vim/etc/sec2)在hadoop102的roc.conf文件的末尾加入以下内容sudo vim.conf3)执行同步操作atguigusudo2.安装依赖sudoyuminstall-ylibtoolsudoyuminstall-y*unixODBC*在hadoop103hadoop104。

2024-02-24 10:33:32 1073

原创 Mysql卸载

此电脑 --> 右键 --> 管理 --> 服务 --> MySQL57(版本不一样名字也不一样)-->右键关闭。控制面板 --> 卸载程序 --> 双击MySQL卸载即可。3.如果数据和配置文件不重要也可以全部删除(在安装的目录中删除)执行命令 : sc delete 服务名。5.清理注册表(详见百度-不同版本,不同清理)4.以管理员身份运行命令提示符。1.关闭MySQL服务。

2024-02-20 18:56:15 599

原创 SQL语句分为以下三种类型

DDL用于定义数据库的结构,比如创建、修改或删除数据库对象CREATE TABLE:创建数据库表ALTER TABLE:更改表结构、添加、删除、修改列长度DROP TABLE:删除表CREATE INDEX:在表上建立索引DROP INDEX:删除索引。

2024-02-20 18:42:18 332

原创 truncate、drop、delete比较

delete删除表中的元组并且不会重置表的自增值;delete操作不会减少表或索引所占用的空间;,所以不能像drop一样用于删除表的结构之后再重新建表。drop会删除表的结构及其所依赖的约束、索引等。drop:删除表的数据和结构之后重新建表。delete多于用删除部分数据。

2024-02-20 16:50:20 344

原创 Hive中几种常见的表

默认创建的表都是管理表/内部表,表数据默认存储在warehouse目录中,在加载数据的过程中,实际数据会被移动到warehouse目录中,当删除表时,表的数据和元数据将会被同时删除,管理表不适合和其他工具共享数据。使用场景:可以通过分区表,将每天搜集的数据进行区分,查询统计的时候通过指定分区,提高查询效率。每一个分区对应一个目录。Hive的表类型主要有:内部表(受控表/管理表)、外部表、临时表、分区表、分桶表。注意:使用as语句无法创建外部表,但是可以使用like进行创建表结构,但是没有数据。

2024-02-20 11:51:15 613

原创 sql执行顺序

fromwheregroup byhaving聚合函数selectorder by。

2024-02-19 11:40:48 364

原创 HDFS测试参数的优先级

通过命令操作HDFS : 服务器端xxx-site.xml > 服务器端xxx-default.xml。通过代码操作HDFS :客户端代码 > 客户端配置文件 > 服务器端xxx-default.xml。

2024-02-16 16:04:18 338

原创 python爬虫

增量爬虫(重点):检测网站数据更新的情况。只会抓取网站中最新更新出来的数据。- Connection:请求完毕后,是断开连接还是保持连接。- Content-Type:服务器响应回客户端的数据类型。- 概念:就是服务器和客户端进行数据交互的一种形式。聚焦爬虫:是建立在爬虫的基础之上。抓取的是页面的局部内容。通用爬虫:抓取系统重要组成部分。抓取的是一整张页面数据。- User-Agent:请求载体的身份标识。互联网中50%的收益来源于爬虫。- 安全的超文本传输协议。robots.txt协议:如。

2024-01-24 21:07:44 1433 1

原创 Python(必会技能)基础边学边改

print("个人信息:{} {} {} {}".format(name,age,gender,score))(setting-->keymap-->查询run(点击右键:Add keyboard Shortcut))快速自定以运行程序:ctrl+shift+F10/或者自定义自己熟悉的 自定义:ctl+R。快速格式化代码:ctrl+alt+L。粘贴复制拷贝:ctrl+c/v/x。查看类的层级关系:ctrl+H。复制当前行:Ctrl+D。添加注释:ctrl+/格式:#coding。1.python安装。

2024-01-24 20:06:29 333

原创 【排障】bash: schematool: 未找到命令的原因

1.hIve环境分发之后记得source,hive环境是之前一次装的,重新整理下环境再source就好。schematool -initSchema -dbType mysql -verbose (正确)就这样解决了,根据个人情况来。

2024-01-23 10:54:56 663

原创 维度数据采集全表采集-json易错点(维度数据表从MySQL中导入到HDFS)

DataX导入数据时,需要目的地目录已经存在,因此我们在执行DataX任务之前,首先要创建导出目录:hadoop fs -mkdir -p /origin_data/car_info/2023-05-01。然后执行以下命令:bin/datax.py job/car_info.json -p"-Dtargetdir=/origin_data/car_info/2023-05-01"执行完成后,查看HDFS上/origin_data/car_info/2023-05-01目录中有没有出现数据。

2024-01-23 10:50:12 493

原创 Error: recoverUnfinalizedSegments failed for required journal(HA按照规划配置好,启动后,NameNode不能正常启动。刚启动的时候 j)

2)使用start-dfs.sh启动,众多服务都启动了,隔两分钟NameNode会退出,再次hadoop-daemon.sh start namenode单独启动可以成功稳定运行NameNode。NameNode作为JournalNode的客户端发起连接请求,但是失败了,然后NameNode又向其他节点依次发起了请求都失败了,直至到了最大重试次数。HA按照规划配置好,启动后,NameNode不能正常启动。刚启动的时候 jps 看到了NameNode,但是隔了一两分钟,再看NameNode就不见了。

2024-01-23 07:02:47 869 1

idea设置,进公司必备

idea设置,进公司必备

2024-02-26

JDK 的下载、安装与配置

JDK 的下载、安装与配置

2023-12-27

如何安装Notepad++文本编辑器?

如何安装Notepad++文本编辑器?

2023-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除