大数据
文章平均质量分 65
智能体格
一线大厂14年IT老兵,擅长互联网技术开发与项目管理,企业人工智能整体架构设计与应用落地,大模型训练/微调/推理,智能体开发。
展开
-
hadoop、spark、flink集群修改默认ssh端口号
大数据集群在实际搭建过程中,其默认ssh端口不一定都是22,这时需要根据各自的配置文件进行适配。ssh端口号默认为22,以centos7.x为例,可以在/etc/ssh/sshd_config中进行修改,如下示例将22改为22222:# If you want to change the port on a SELinux system, you have to tell# SELinux about this change.# semanage port -a -t ssh_port_t -原创 2022-01-13 15:41:31 · 2518 阅读 · 1 评论 -
CDH-CM资源下载
CDH-6.3.2链接 : https://pan.baidu.com/s/1Vd9ZaXcKG0JDCDszTtasjQ oycpCDH-6.3.1链接 : https://pan.baidu.com/s/1uaCfCF9p0PLaxdm9mGeQgA 提取码 : pdcbCDH-6.2.1链接 : https://pan.baidu.com/s/19fB1bl0TdDBPNrVr70SE7g 提取码 : 8f3z CDH-5.16.2链接 : h...原创 2022-01-12 16:34:48 · 1987 阅读 · 0 评论 -
Java Scala 混合编程导致 编译失败 ,【找不到符号】问题解决
大致就是 工程里分了 java 代码 和scala代码。然后在java代码中 引用了 scala 的代码。[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on project spark-auth: Compilation failure[ERROR] /Users/hulb/project/dipper/spark-aut.原创 2022-01-11 16:31:13 · 1503 阅读 · 0 评论 -
JS实现多线程数据分片下载
在大数据开发过程中,为了提高大文件的上传速度,往往需要将大文件切割为小的数据分片,这样小分片数据可以充分利用有限的带宽,加快上传速度。上传完成后,通常做法是在后端进行合并,而我的做法是后台保持分片存储,数据使用时候,前端JS开启多线程下载,再合并为完整的文件。这样的好处和上传一样,可以提高下载速度很多倍。下载效率和分片算法相关。以下是多线程分片下载聚合的实现。function concatenate(arrays) { if (!arrays.length) return null;原创 2021-09-29 15:54:28 · 2214 阅读 · 2 评论 -
IPFS存储数据一致解决方案
参考IPFS官网:https://cluster.ipfs.io/documentation/guides/consensus/引 言星际文件系统(InterPlanetary File System,缩写IPFS)是一个旨在创建持久且分布式存储和共享文件的网络传输协议。它是一种内容可寻址的点对点超媒体分发协议。在IPFS网络中的节点将构成一个分布式文件系统。在IPFS网络中,文件是拆分后存储在不同节点的,每个节点存储的内容并不相同,当我们使用IPFS私有网络来作为系统的文件系统时就存在存储一原创 2021-05-08 11:22:13 · 428 阅读 · 0 评论 -
Mongodb GridFS——适合大小超过16MB的文件
一、概述 GridFS是基于mongodb存储引擎是实现的“分布式文件系统”,底层基于mongodb存储机制,和其他本地文件系统相比,它具备大数据存储的多个优点。GridFS适合存储超过16MB的大型文件,不过16M数据在当今互联网时代,已经不足为奇。我们可以使用GridFS构建大规模的“图片服务器”、“文档服务器”、“视频、音频”文件服务器,GridFS对于web应用,可以结合nginx插件“ningx-gridfs”能够简单的实现负载均衡等特性,非常便捷;可以简单认为GridFS是为web应用..原创 2021-03-16 16:50:02 · 1548 阅读 · 0 评论 -
大数据之Hadoop3.0 新特性
总览官网https://hadoop.apache.org/docs/r3.1.4/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml最低要求的Java版本从Java 7增加到Java 8 支持HDFS中的擦除编码 YARN时间轴服务v.2 Shell脚本重写 支持随机container和分布式计划 MapReduce任务级本机优化 支持两个以上的NameNode 多个服务的默认端口已更改 支持Microsoft Azure Data原创 2021-03-09 15:06:16 · 222 阅读 · 0 评论 -
hadoop访问ssh非默认端口问题
启动报错[root@vpt00043s1a15 sbin]# cd /usr/local/hadoop-3.1.4/sbin[root@vpt00043s1a15 sbin]# start-dfs.shStarting namenodes on [vpt00043s1a15]Last login: Mon Mar 8 10:42:05 CST 2021 from 10.225.252.137 on pts/0vpt00043s1a15: ssh: connect to host vpt000原创 2021-03-08 15:09:40 · 672 阅读 · 0 评论 -
hadoop配置文件详解系列(二)-hdfs-site.xml篇
上一篇介绍了core-site.xml的配置,本篇继续介绍hdfs-site.xml的配置。 属性名称 属性值 描述 hadoop.hdfs.configuration.version 1 配置文件的版本 dfs.namenode.rpc-address 处理所有客户端请求的RPC地址,若在HA场景中,可能有多个namenode,就把名称ID添加到进来。该属性的格式为nn-host1:rpc-port。 d原创 2021-03-09 09:04:45 · 2493 阅读 · 0 评论 -
hadoop配置文件详解系列(一)-core-site.xml篇
导读:关于hadoop的配置文件,目前其它网站资料中都是只写了几个常用的属性配置,但平时可能也会用到其它属性,这里就一起写出来,供大家参考。本篇先从core-site.xml开始,后续将继续进行其它配置文件的梳理。 属性名称 属性值 描述 hadoop.common.configuration.version 0.23.0 配置文件的版本。 hadoop.tmp.dir /tmp/hadoop-${user.name}原创 2021-03-09 09:02:36 · 4474 阅读 · 1 评论