自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 收藏
  • 关注

原创 【三】ubuntu24虚拟机集群配置免密登陆

通过上述步骤,成功为三台Ubuntu虚拟机配置域名映射和免密登录。这样,可以通过域名而不是IP地址访问每台机器,并且在每台机器之间进行免密SSH登录。当前三台ubuntu节点已经完成了虚拟机在vmware fusion中的部署,网络经过测试均已经互通,并且开机使用远程连接进行访问。在提示时按Enter键,使用默认文件路径,不设置密码短语。在每台机器上生成SSH密钥对,并将公钥分发到其他机器。这样,每台机器都能通过域名访问其他机器。上,运行以下命令将公钥分发到。实际上,这个选项应该出现在。

2024-07-05 17:59:49 715

原创 【二】Ubuntu24虚拟机在Mac OS的VMware Fusion下无法联网问题

网络地址转换 (NAT)是一种允许多台设备通过单一的公共IP地址访问互联网的技术。在 NAT 中,有一个专门的设备或软件,通常称为NAT 网关,负责将内部网络(私有IP地址)的流量转换为公共IP地址。将内部私有IP地址转换为公共IP地址。将内部设备的端口号与公共IP地址的端口号进行映射,以便正确路由流量。NAT 网关是用于将私有网络的流量转换为公共网络流量的关键设备。正确配置网关地址确保网络流量能够通过NAT网关正确路由到外部网络。

2024-07-05 17:56:52 1167

原创 【一】m2芯片的mac中安装ubuntu24虚拟机集群

修改完成后应用网络,使其生效,报这个警告是因为用了过时的语法,没关系。执行完应用新网络ip的命令后,当前终端窗口由于网络发生了变化,所以就会连接中断,需要重新连接新的ip。至此,ubuntu2已经复制完成,ubuntu1可以ping通ubuntu2的地址,同时也要确保ubuntu2可以ping通ubuntu1。这里对网络,网关,域名解析进行配置,原ip为172.16.167.131,这里修改为172.16.167.132。输入名字,你的名字和username可以写一样的,就是登陆时候的用户名,这里配置为。

2024-07-05 17:52:13 963

原创 Samba 服务器的搭建以及windows server 2008客户端的使用实验报告

通过本次实验,我深入了解了在 Linux 和 Windows Server 环境中配置 Samba 服务器以及实现跨平台文件共享的过程,进一步掌握了网络配置的基本原理和操作技能。首先,我在虚拟机中安装了 CentOS 作为 Samba 服务器,并配置了静态 IP 地址,同时在 Windows Server 2008 R2 中也配置了相应的静态 IP 地址。在编辑 Samba 配置文件时,通过设置和添加。

2024-06-17 12:19:05 669

原创 2022软件设计师上半年下午题六

(3)根据Memento类可知,通过getState()方法拿到state参数,所以调用Memento下的getState()方法;(1) public后出现的Memento是个返回类型,所以要去前段代码找Memento;(1) 在问题(3)中,只有函数体,没有返回值类型、名称、参数及类型,需阅读函数体;(3) Memento是返回类型,所以要返回Memento类型的对象;(5) 根据前段代码找到的Memento类,在构造方法中,需要传参数;(1) 由问题(4)得知,需要判断返回类型、方法名、参数及类型;

2024-04-07 18:03:30 456

原创 基于java和PowerShell使用SHA-256和BASE64加密字符串的进制位计算差异

Java 示例中的【结果1】使用的是标准的 Java 加密库中的 MessageDigest 类来计算 SHA-256 哈希值,然后使用 BASE64Encoder 类将二进制哈希值转换为 BASE64 编码的字符串。【结果2】的BASE64计算输出则与使用PowerShell计算相同 ,因为在PowerShell中使用的是命令来计算文件的 SHA-256 哈希值,该输出对应java【结果2】中十六进制SHA-256的计算。

2024-03-06 18:07:32 946

原创 JanusGraph图数据库的应用以及知识图谱技术介绍

JanusGraph介绍JanusGraph 是一个开源的、分布式的、基于属性图的数据库,由 Apache TinkerPop 社区开发。它支持 Apache Cassandra 和 Apache HBase 作为存储后端,并提供原生支持 Gremlin 图遍历语言。JanusGraph 的主要优势支持非常大的图。JanusGraph 图可以随着集群中机器的数量而扩展。支持非常多的并发事务和操作性图处理。JanusGraph 的事务容量随着集群中机器的数量而扩展,并能够在毫秒内回答复杂的遍历查询。

2024-01-22 19:13:26 1545

原创 基于华为MRS3.2.0实时Flink消费Kafka落盘至HDFS的Hive外部表的调度方案

该需求为实时接收对手Topic,并进行消费落盘至Hive。在具体的实施中,基于华为MRS 3.2.0安全模式带kerberos认证的Kafka2.4、Flink1.15、Hadoop3.3.1、Hive3.1,调度平台为开源dolphinscheduler。本需求的完成全部参考华为官方MRS3.2.0开发文档,相关章节是普通版的安全模式。

2024-01-17 18:32:20 1486

原创 实战Flink Java api消费kafka实时数据落盘HDFS

在Java api中,使用flink本地模式,消费kafka主题,并直接将数据存入hdfs中。

2024-01-07 22:30:09 1981 3

原创 接收Kafka数据并消费至Hive表

将Kafka中的数据消费到Hive可以通过以下简单而稳定的步骤来实现。这里假设的数据是以字符串格式存储在Kafka中的。创建Hive表:编写Kafka消费者脚本:Hive JDBC客户端:运行消费者脚本:这是一个基本的、简单的方式来实现从Kafka到Hive的数据流。这里的示例假设数据是以逗号分隔的字符串,实际上,需要根据数据格式进行相应的解析。这是一个简化的示例,真实场景中可能需要更多的配置和优化。确保环境中有Hive和Kafka,并根据实际情况调整配置。使用Flink处理Kafka数据

2023-12-31 22:50:01 3431 3

原创 Hive表加工为知识图谱实体关系表标准化流程

加工原则是从Hive的原数据表中抽取出导图所用的实体和关系字段,包括重要的属性描述字段,最后导入图数据库。

2023-12-31 13:42:02 1185

原创 错行乱行文本处理方法正则及命令

例如,如果CSV文件在Windows环境下编辑过,可能包含回车符,使用这个命令可以将其删除,得到一个没有行尾回车符的文件。: 这是一个替换命令,使用正则表达式匹配每个逗号后面是17位数字或15位数字的部分,并在匹配到的部分之前插入换行符。: 这是一个替换命令,使用正则表达式匹配每个逗号后面是8位数字的部分,并在匹配到的部分之后插入换行符。后面是17位数字或15位数字(带换行符),然后在匹配到的部分之前插入换行符,用于提取身份证号。中匹配到逗号后面是8位数字的部分,然后在匹配到的部分之后插入换行符。

2023-12-26 23:12:50 906

原创 ElasticSearch5.6.2常用transport client Java API操作代码实例

ElasticSearch5.6.2常用transport client Java API操作代码实例。

2023-12-17 16:01:51 514

原创 使用sha512对上传到linux服务器的文件进行校验

SHA-512(安全散列算法 512 位)是一种密码散列函数,属于SHA-2家族的一部分。它是由美国国家安全局(NSA)设计的一种安全散列算法,用于产生数字摘要,通常用于数据完整性验证、数字签名等安全应用。SHA-512算法会接受输入数据,并生成一个固定长度为512位(64字节)的输出,通常以十六进制表示。SHA-512常用于验证文件完整性、密码存储以及数字签名等领域。

2023-12-17 15:45:35 726

原创 Hbase2.5.5分布式部署安装记录

从官网下载二进制安装包,上传至linux,安装并分发三台集群,用作大数据测试实验,前置的Hadoop以及jdk安装将省略。安装前请确保三台集群节点已经配置免密登录,域名映射,以及关闭防火墙。至此,完成Hbase的分布式部署安装及测试。

2023-12-11 22:39:19 824

转载 渣男绿茶语录生成器API及用法

该网站作者希望大家能够学会说话的艺术,创造美丽世界,可以切换渣男风格api和绿茶风格api。

2023-12-10 18:42:55 289

原创 MySQL视图介绍与实验练习

视图是一种虚拟表,其内容由一个查询定义。它提供了一种将复杂查询逻辑封装成可重用的结构的方式。

2023-12-08 21:20:28 998

原创 我的创作纪念日

总的来说,创作不仅为我个人带来了关注和认可,也为我技术上的成长和职业发展打下了坚实的基础。在创作的过程中,我经常收获了许多令人鼓舞的成果,这些成果不仅是对个人努力的认可,也是对技术交流和分享的积极推动。这些互动不仅提供了对我工作的肯定,还为我提供了改进的建议和额外的见解,推动了我的学习和成长。在创作的过程中,我经常收获了许多令人鼓舞的成果,这些成果不仅是对个人努力的认可,也是对技术交流和分享的积极推动。这些互动不仅提供了对我工作的肯定,还为我提供了改进的建议和额外的见解,推动了我的学习和成长。

2023-12-08 20:36:35 809

原创 Hive中parquet压缩格式分区表的跨集群迁移记录

从华为A集群中将我们的数据迁移到华为B集群,其中数据经过华为集群管理机local跳转。数据样例:分区表 外部表 .parquet压缩

2023-12-01 13:08:44 613

原创 Python环境中HanLP安装与使用

根据github最新官方文档整理。

2023-11-13 19:29:23 1470

原创 wiki.js一个开源知识库系统

Node.js:wiki.js需要Node.js版本16.0.0或更高。Web服务器:wiki.js需要一个Web服务器来托管wiki页面。常用的Web服务器包括Apache、Nginx和IIS。数据库:wiki.js支持多种数据库,包括PostgreSQL、MySQL、MariaDB和SQLite。

2023-11-13 16:38:42 2479

原创 GalaxyBase分布式集群关闭后启动

查看所有的docker容器,这里应该能找到三个镜像,分别是browser、graph、admin,他们的状态应该是。这将列出所有正在运行的容器,包括容器的详细信息,如容器ID、镜像名称、创建时间、端口映射等。GalaxyBase的启动操作主要都是docker,对于没有用过容器的人来说,比较陌生。这是说明本地没有服务在部署,为什么是空的,因为我们的部署是分布式,不是本地式。文档似乎仅说明了本地模式的启动,并没有找到集群模式,所以我的参考有误。这将列出所有容器,无论它们是否正在运行,包括已停止的容器。

2023-10-24 19:25:00 109

原创 Spark集群中一个Worker启动失败的排错记录

集群下电停机后再次启动时,发现其中一台节点的worker启动失败。

2023-10-24 19:14:49 942 1

原创 Hive跨集群数据迁移过程

本次迁移数据100G,15亿条,数据流转方向从集群A经过跳转机到集群B,通过HDFS拉取和重新建表导入的方式完成数据库迁移。

2023-10-18 22:05:54 802

原创 使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓

解决思路是通过将整表的数据查询出,插入到另一个新表中,而后删除旧的表,该方法如果在生产环境中使用应考虑机器性能和存储情况。本案例由于使用python生成文件,只有第一个csv文件有列名,其余csv没有列名,我们稍后单独处理这一个首行。这段代码使用Faker库生成模拟的个人信息数据,每个CSV文件包含一定数量的行数据,数据字段包括。这段Python代码用于生成模拟的个人信息数据,并将数据保存为CSV文件。在每个文件中,生成随机的个人信息数据,并将其写入CSV文件。所有数据生成后,打印生成的总行数。

2023-10-15 18:29:26 891

原创 Hadoop-2.5.2平台环境搭建遇到的问题

这两天我配置了mysql和hive,本文记录遇到的问题。

2023-10-09 22:34:44 926

原创 Hive中Join优化的几种算法

该算法适用于大表关联小表,第一个 Map Job 启动本地任务读取小表中的数据,首先将其制作为 Hash Table,再将其上传到分布式缓存(HDFS)中,第二个 Map Job 将小表读取至内存,并且扫描大表,在 Map Job 中完成两表的关联,因此可以不走 Reduce。Bucket Map Join 的条件是要求参与 Join 的表都是分桶表,关联 key 为分桶字段,且其中一张表的分桶数量是另一张表分桶数量的整数倍,这是为了保证每个分桶都有对应的关联桶,避免奇数桶找不到对应关系。

2023-09-08 16:40:54 566

转载 【转载】Kafka的消费者分区策略

如果消费组内,消费者订阅的Topic列表是相同的(每个消费者都订阅了相同的Topic),那么分配结果是尽量均衡的(消费者之间分配到的分区数的差值不会超过1)。这种分配方式明显的一个问题是随着消费者订阅的Topic的数量的增加,不均衡的问题会越来越严重,比如上图中4个分区3个消费者的场景,C0会多分配一个分区。StickyAssignor分区分配算法,目的是在执行一次新的分配时,能在上一次分配的结果的基础上,尽量少的调整分区分配的变动,节省因分区分配变化带来的开销。分区的分配尽量的均衡。

2023-08-21 16:16:40 408

原创 Spark 为什么比 MapReduce 快100倍?

通常我们认为 Spark 引擎是基于内存进行计算,无论如何,速度都是比 MapReduce 快,因为 MapReduce 需要频繁 Shuffle。在 Spark 的官网早期介绍中,也有过一张 Spark 比 Hadoop 计算速度快100倍的宣传,虽然它似乎违反了我们的广告法。本文不讨论技术源码,从内存计算、数据共享、任务调度优化多种角度,总结 Spark 快的真因。

2023-08-19 17:17:07 402

原创 基于MapReduce的Hive数据倾斜场景以及调优方案

这在数据倾斜的情况下可能会有一定的帮助,因为数据倾斜往往会导致部分Reducer需要处理较多的数据,通过减小传输数据量,可以加快数据的传输速度,从而在一定程度上减轻了数据倾斜带来的影响。分桶表的优势在于,通过合理设置分桶数量和选择适当的分桶列,可以使数据更加均匀地分布在不同的分桶中,从而减轻数据倾斜的影响。Hive数据倾斜是指在数据分布中存在不均匀的情况,业务问题或者业务数据本身的问题,某些数据比较集中,导致某些节点或分区上的数据量远远大于其他节点或分区,从而影响查询性能和任务的均衡执行,尤其是join。

2023-08-13 20:40:57 991

原创 CDH6.3应知应会

Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。CDH 是 Cloudera 提供的一套基于 Hadoop 生态的大数据解决方案。它包括 Hadoop 生态的核心组件,如 HDFS、YARN、Hive、HBase 等,并提供了集成的管理、监控、安全性等功能,使大数据平台的构建和管理更加便捷。

2023-08-13 15:59:03 641

原创 使用ReduceByKey在Spark中进行词频统计

Spark采用Local模式运行,Spark版本3.2.0,Scala版本2.12,集成idea开发环境。

2023-08-07 17:54:04 516

原创 Spark中使用RDD算子GroupBy做词频统计的方法

测试文件在本地,Spark采用Local模式运行,Spark版本3.2.0,Scala版本2.12,集成idea开发环境。

2023-08-07 16:10:56 648

原创 Hive 中 sort by 和 order by 的区别

在 Hive 中,SORT BY和ORDER BY都用于对查询结果进行排序,但它们在实现方式和适用场景上有一些区别。

2023-08-06 20:08:43 3398 3

原创 Parquet存储的数据模型以及文件格式

本文主要参考文献:Tom White. Hadoop权威指南. 第4版. 清华大学出版社, 2017.pages 363.Aapche Parquet是一种能有效存储嵌套数据的列式存储格式,在Spark中应用较多。列式存储格式在文件大小和查询性能上表现优秀,在列式存储格式下,同一列的数据连续保存。一般来说,这种做法可以允许更高效的编码方式,从而使列式存储格式的文件常常比行式存储格式的同等文件占用更少的空间。

2023-08-06 17:41:13 816

原创 【Flink实时数仓】需求二:用户事件信息宽表的构建 Kafka Hbase Flink

实时中的宽表其实是在退维,退维是数据处理中的一种操作,它是将细粒度的数据合并、归并为粗粒度数据的过程。在数据处理的过程中,原始数据往往包含大量的细节和细粒度信息,而有时候我们需要将这些细粒度数据转化为更高层次、更普遍的概要信息,以支持更广泛的数据分析和业务需求,这个过程就是退维。总之,退维是数据处理中的重要环节,它帮助我们从复杂的细粒度数据中提取出有用的信息,简化数据分析过程,同时还有助于节约存储空间和提高数据处理效率。通过退维,我们可以更好地理解数据,发现数据的规律和趋势,并支持更广泛的业务应用和决策。

2023-07-23 20:02:38 709

原创 Flink连接Hbase时的kafka报错:java.lang.NoClassDefFoundError: org/apache/kafka/common/utils/ThreadUtils

书接上文 【Flink实时数仓】需求一:用户属性维表处理-Flink CDC 连接 MySQL 至 Hbase 实验及报错分析http://t.csdn.cn/bk96r我隔了一天跑Hbase中的数据,发现kafka报错,但是kafka在这个代码段中并没有使用,原因就是我在今天的其他项目中添加的kafka依赖导致了冲突。

2023-07-23 13:04:54 1302 1

原创 【Flink实时数仓】需求一:用户属性维表处理-Flink CDC 连接 MySQL 至 Hbase 实验及报错分析

这个代码是sql-client.sh中成功读取到MySQL插入的数据,此时在MySQL中对数据的操作即可通过FlinkCDC连接展示在此界面。下面这个黑窗口界面是Hbase的查看界面,首先在idea中启动上述的测试代码。通过清空和查看表名,也可以看到flink cdc的连接效果。使用Flink CDC连接MySQL,在Hbase中实时同步数据库的修改。这个只是其中一个报错,还有一些报错没有截图,是以依赖问题居多。这一步遇到过几个坑,依赖的冲突和依赖版本。这是在小松鼠界面输入的命令。

2023-07-21 19:23:40 477 1

原创 Flink面试题持续更新【2023-07-21】

需要注意的是,Spark 3.0引入了Structured Streaming,它在Spark Streaming的基础上进行了重构,以支持更高级的流处理功能和与批处理更紧密的一体化。需要注意的是,除了默认的消息语义之外,Flink和Spark Streaming都提供了灵活的配置选项和API,允许根据具体的应用需求调整消息语义级别。这意味着数据写入和状态保存是原子性的,要么同时成功,要么同时失败。Flink的分区策略对于作业的性能和效率非常重要,正确选择和使用分区策略可以显著提高作业的处理速度和可靠性。

2023-07-21 13:57:13 1381

原创 【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive

本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时间分区。测试两种导入场景,一种是将数据全量导入,即包含所有时间分区;另一种是每天运行调度,仅导入当天时间分区中的用户数据。mysql表建表语句:hive注意字段时间戳,我们将从以上MySQL向Hive导入数据。编写datax的json脚本"job" : {执行导入操作在mysql中添加测试数据 导入mysql中7-11的数据到hive下7-11分区在hive下创建分区运行dataX脚本。

2023-07-14 09:49:46 1871

elasticsearch6.6.0 aarch64 arm

适用于华为arm架构服务器的elasticsearch6.6.0,由官方x86发型版本重新编译。

2024-01-20

sql-geoinfo-chn

该SQL包含了全国的城市地理位置信息,包括经纬度,精确至街道,坐标类别包括大地坐标,国标,百度坐标。该表可用于解析经纬度进行国内城市的精确定位。数据字段展示:“INSERT INTO `t_md_areas` VALUES ('110000', '北京市', '0', '北京', '1', '1', '116.22519738192517', '40.21952491712514', '116.23128', '40.22077', '116.39564503787867', '39.92998577808024');”

2023-06-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除