自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 MPI分布式并行环境搭建(超详细)

etc/exports文件配置,在文件/etc/exports中增加如下内容(以mpi-install为例)/home/hadoop/mpi-install 192.168.1.0/24(rw,sync,no_root_squash)$sudo nano ~/.bashrc 或者 $ sudo nano /etc/profile。$source ~/.bashrc 或者 $ source /etc/profile。4)查看防火墙状态: $ /usr/sbin/sestatus。

2024-06-06 13:24:45 1736

原创 bash:mpdboot:未找到命令

在重新打开虚拟机以后发现共享目录开机自启动失败,于是出现了这样的报错:解决方法:继续做实验咯!

2024-06-06 13:17:43 162

原创 Centos7 遇到报错:ping: www.baidu.com: 未知的名称或服务 详细解决步骤

这些信息的查看可通过“ifconfig"命令以及“左上角选项卡-编辑-虚拟网络编辑器”查看,DNS1设置为与网关相同,DNS2设置为谷歌的公共DNS服务器8.8.8.8即可。许久未用虚拟机,在连接网络时发现上不了网,苦苦挣扎了两个小时,终于解决,在此记录一下~最后希望我们以后不要再在网络这里栽跟头了[笑哭][祈祷]5.测试:ping一下网关和百度,显示连接成功。3.修改resolv.conf配置文件。2.输入su,更改为root权限。1.修改网络适配器为NAT。输入下面代码,更改网络配置。

2024-05-11 11:12:17 536 1

原创 分割软件labelme批量把json转成png

最近在做医学图像分割的相关工作,用到了labelme这一软件,但标注以后直接生成的只有json格式,而跑模型需要png格式的mask,这就需要我们手动做一下转换。虽然有警告,但已经成功完成了转换!需要注意的是,在最后的代码中要改一下文件夹的路径。

2023-09-24 22:39:46 223 1

原创 HBase2.4.1全分布式安装(一主二从)保姆级教程

很详细,但只有单机和伪分布的,所以笔者在此记录一下全分布式的安装教程,希望对读者有帮助!安装并配置HBase2.4.1安装通过查找网上资料得知,hadoop2.10.1版本与2.4.1版本的hbase兼容。1.1解压安装包至路径/usr/localcd ~下载。

2023-09-19 21:25:32 1201

原创 eclipse运行程序时报错:java.net.ConnectException: Call From master/192.168.1.5 to localhost:9000 failed ...

求助万能的朋友圈之后,才发现应将代码中的“localhost”改成虚拟机的节点名称,于我就是master,报错解决,耶!在网上找了很多教程,但是都未解决,不知道问题出在了哪里,为此困扰了一下午。

2023-09-16 17:13:49 899 3

原创 青训营-HDFS高可用与高扩展机制

字节跳动HDFS依然在持续迭代,在元数据扩展性、数据治理与调度、数据生态体系、单机存储引擎、云上存储等方向依然大有可为。延迟的分布:用百分数来表示访问的延迟的统计特征,例如p95延迟为1ms,代表95%的请求延迟要低于1ms,但后5%的请求延迟会大于1ms。路径最长匹配规则:/、/home、/user/bob、/user/tiger/warehouse、/usertiger/dump。会显著的要差于平均值。数据的不均匀:、节点容量不均匀、数据新旧不均匀、访问类型不均匀、资源负载不均匀。

2023-09-13 22:38:09 157

原创 青训营-HDFS原理与应用

数据块信息维护:目录树保存每个文件的块id、NameNode维护了每个数据块所在的节点信息 、NameNode根据DataNode汇报的信息动态维护位置信息、NameNode不会持久化数据块位置信息。2)心跳汇报:把存放在本机的数据块列表发送给NameNode,以便NameNode能维护数据块的位置信息,同时让NameNode确定该节点处于正常存活状态。5)数据放置:系统是由多个节点组成,数据是多个副本存放时,需要考虑数据存放的策略。

2023-09-13 22:36:28 43

原创 青训营-Presto架构原理与优化介绍

2)与Mapreduce Job相比,OL AP引擎常通过SQL的形式,为数据分析、数据开发人员提供统一的逻辑描述语言,实际的物理执行由具体的引擎进行转换和优化。➢Driver:Pipeline的可执行实体,Pipeline和Driver的关系可类比程序和进程,是最小的执行单元,通过火山迭代模型执行每一个Operator.LocalExchange:Stage 内的rehash操作,常用于提高并行处理数据的能力(Task在Presto中只是最小的容器,而不是最小的执行单元)如下图,自底向上为调用关系。

2023-09-13 22:34:56 123

原创 青训营-大数据shuffle原理与实践

map任务的shuffle writer过程完成后,增加了一个额外的操作push-merge,将数据复制 份推到远程shuffle服务.上magnet shuffle service是一个强化版的ESS。目前在各个引擎中shuffle都是优化的重点,在spark框架中,shuffle 是支撑spark进行大规模复杂数据处理的基石。如果magnet上的block因为重复或者冲突等原因,没有正常完成merge的过程,则reduce task直接拉取未完成merge的block。

2023-09-13 22:32:10 477

原创 青训营-流计算中的Window计算

迟到定义:一条数据到来后,会用WindowAssigner给它划分一个window,一般时间窗口是一个时间区间, 比如10:00, 11:00),如果划分出来的window end比当前的watermark值还小,说明这个窗口已经触发了计算了,这条数据会被认为是迟到数据。需求:根据YARN上报的各个container的信息,在任务结束的时候,尽快的计算出一一个 任务运行所消耗的总的资源。Flink的API是分层结构,本图表示API抽象程度的分层,层次越高,抽象程度越高,用户的使用成本越低,表达能力更有限。

2023-09-13 22:27:43 69

原创 青训营-流/批/OLAP 一体的Flink引擎介绍

2)执行引擎层(Runtime 层) :执行引擎层提供了统一的DAG, 用来描述数据处理的Pipeline,不管是流还是批,都会转化为 DAG图,调度层再把DAG转化成分布式环境下的 Task, Task 之间通过Shuffle传输数据;并且Flink 在流批一体上,从上面的API到底层的处理机制都是统一的,是真正意义上的流批一体。.基于文件的Pull Based Shuffle,比如Spark或MR,它的特点是具有较高的容错性,适合较大规模的批处理作业,由于是基于文件的,它的容错性和稳定性会更好些;

2023-09-13 22:23:25 178

原创 青训营-Spark 原理与实践

spark. Sql shuffle partition作业粒度参数,一个作业中所有Stage都一样,但是每个Stage实际处理的数据不一样,可能某些Stage的性能比较差,比如:partition参数对某个Stage过大,则可能单个partition的大小比较小,而且Task个数会比较多,shufle fetch阶段产生大量的小块的随机读,影响性能。分区决定了并行计算的数量,创建RDD的时候可以指定它的分区个数,否则将按照默认值;

2023-09-13 22:17:09 142

原创 青训营-Exactly Once语义在Flink中的实现

在多个节点参与执行的分布式系统中,为了协调每个节点都能同时执行或者回滚某个事务性的操作,引入了一个中心节点来统一处理所有 节点的执行逻辑,这个中心节点叫做协作者(coordinator) ,被中心节点调度的其他业务节点叫做参与者(participant)。算子会等待所有上游的barrier到达后才开始快照的制作:已经制作完成的上游算子会继续处理数据,并不会被下游算子制作快照的过程阻塞。1)解耦了快照制作和数据处理过程,各个算子制作完成状态快照后就可以正常处理数据,不用等下游算子制作制作完成快照;

2023-09-13 22:10:18 54

原创 青训营-大数据体系

分析引擎:S 批式分析:Spark,Hive,MR Q 实时分析:Flink L 交互分析Presto,ClickHouse,Doris 消息队列:Kafka,Pulsar,NSQ。RBO-谓词下推(显著减少计算量) -传递闭包:根据一些条件推导新条件 -RUNTIME FILTER。6)存储系统:HDFS,HBase,NAS,Object Store,数据湖。1)业务应用:BI报表,数据挖掘,营销分析,精准推荐。子节点:selectlist:包含选择的列的信息。7)基础设施:ESC,存储,VPC。

2023-09-13 22:07:52 43

原创 Hadoop全分布式详细安装教程-centos7,三节点

本教程主要参考厦门大学林子雨老师的安装过程,使用VMware Workstation Pro、centos7,配置一个主节点(master),两个从节点(slave01,slave02)的全分布式hadoop集群安装教程,主要记录一下本次实验完成过程,大家有疑问之处欢迎在留言区评论~在此奉上林子雨老师的原安装教程,本教程具体代码完全参考林老师的,重在流程,故不再赘述代码,大家在安装过程中若发现不确定之处可与本教程对应内容进行比对。

2023-09-13 20:12:32 298

原创 数学建模国赛常用可视化图-matlab

reason:之前总是习惯用python来进行可视化,但遇到线性规划等问题时,matlab的优势还是很明显的,使用matlab进行可视化的效果也很不错。本文内容源于B站up主“数学建模老哥”,笔者在此做一下听课的笔记分享~~

2023-09-01 21:56:18 273 2

原创 在命令行里,cd命令无法正常切换路径怎么办?

我们在训练一些模型的时候,经常会在命令行里面运行,用cd命令切换路径也十分常用,但是有时发现用cd命令以后,开头的目录并没有变化,这时要怎么办呢?要注意,其中的路径不要加引号。好了,也算是浅浅记录一下!

2023-07-31 15:31:46 451 1

原创 报错:min_faces_per_person=70 is too restrictive解决办法(人脸识别数据lfw_funneled)

下载完成后,替换原来的位置即可,若还报错,则将除了lfw-funneled之外的删去,再运行即可跑通代码如下。大二下学期机器学习课设过程中遇到了这个报错,查阅资料可知,是前面的代码下载的数据集不正确所致。

2023-06-14 20:25:18 368

原创 初学matplotlib绘图

Matplotlib是一个Python 2D绘图库,它以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形。Matplotlib可用于Python脚本,Python和Shell、笔记本,Web应用程序服务器和四个图形用户界面工具包。组数:把样本分成组的个数 = (最大值-最小值)/组距组距:每一组两个端点的差。

2022-10-30 14:29:09 445

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除