大数据
文章平均质量分 52
爱上雪茄
专注于电商,saas平台,物联网,大数据,LLM
展开
-
Linux管理面板1Panel
整个界面简洁清爽,后端使用GO开发,前端使用VUE的Element-Plus作为UI框架,整个面板的管理都是基于docker的。:通过 Web 端轻松管理 Linux 服务器,包括应用管理、主机监控、文件管理、数据库管理、容器管理等;1Panel 是一个现代化、开源的 Linux 服务器运维管理面板。官网: https://1panel.cn/2.1、安装1Panel代码。2.2、安装1Panel过程。一、1Panel介绍。二、1Panel安装。三、访问1Panel。四、1Panel界面。原创 2023-12-24 11:40:57 · 1505 阅读 · 0 评论 -
安装docker和安装docker-compose步骤
1、下载:sudo curl -L "https://github.com/docker/compose/releases/v2.23.3/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose。2、授权:sudo chmod +x /usr/local/bin/docker-compose。4、卸载: sudo rm /user/local/bin/docker-compose。原创 2023-12-22 00:18:45 · 191 阅读 · 0 评论 -
prometheus部署及与grafana结合应用
prometheus server 是 Prometheus组件中的核心部分,负责实现对监控数据的获取,存储以及查询。它会定期从静态配置的监控目标或者基于服务发现自动配置的自标中进行拉取数据,当新拉取到的数据大于配置的内存缓存区时,数据就会持久化到存储设备当中。node_exporter是用于采集node的运行指标,包括node的cpu、load、filesystem、meminfo、network等基础监控指标,类似于zabbix监控系统的的zabbix-agent。3.7、启动prometheus。原创 2023-11-28 11:42:25 · 375 阅读 · 0 评论 -
SpringBoot引入sleuth做链路追踪
sleuth 是一个分布式跟踪系统,用于跟踪应用程序中的请求和操作。引入该依赖后,日志中会自动添加(traceid,spanid),但是。五、启动Application应用查看traceId信息。这样springboot就成功引入sleuth入了。sleuth也可以在SpringBoot中单独使用。四、application.yml的修改。一、sleuth介绍。原创 2023-11-26 12:49:29 · 408 阅读 · 0 评论 -
skywalking 9.0.0开启自监控和配置集群
3.1、修改第一台服务器的application.yml。3.3、修改第二台服务器的application.yml。3.2、修改第一台服务器的webapp.yml。3.4、修改第二台服务器的webapp.yml。3.5、修改cluster,采用nacos集群。二、Skywalking支持的集群模式如下。4.2、配置 skywalking。三、Skywalking集群配置。4.1、启动prometheus。四、skywalking自监控。一、skywalking介绍。3.6、查看nacos。原创 2023-11-26 00:34:58 · 831 阅读 · 0 评论 -
SkyWalking 9.0.0在SpingBoot和SpringCloud中的应用
SkyWalking 是一个开源的可观测平台,用于收集、分析、聚合和可视化来自服务和云原生基础设施的数据。它是一种现代 APM(application performance monitor),专为云原生、基于容器的分布式系统而设计。这里采用的是mysql数据库,也可以选择其他数据库,需要拷贝对应的驱动进去,例如mysql,就拷贝mysql-connector-j-8.0.33.jar到apache-skywalking-apm-bin\oap-libs目录中。3.3、启动skywalking。原创 2023-11-25 23:26:16 · 458 阅读 · 0 评论 -
ChatGLM3在windows10上部署与调试
ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。一、ChatGLM3介绍。二、ChatGLM3下载。原创 2023-11-24 15:20:40 · 2264 阅读 · 0 评论 -
单机安装ceph
Ceph在一个统一的系统中独特地提供对象、块和文件存储。Ceph 高度可靠、易于管理且免费。Ceph 的强大功能可以改变您公司的 IT 基础架构和管理大量数据的能力。Ceph 提供了非凡的可扩展性——数以千计的客户端访问 PB 到 EB 的数据。ceph存储集群相互通信以动态复制和重新分配数据。二、ceph配置数据源。原创 2023-11-21 00:15:59 · 211 阅读 · 0 评论 -
apache-cassandra-3.11.16 在windows10上部署出现的异常
根据这个分析,发现D:\bigdata\apache-cassandra-3.11.16\lib\sigar-bin这个下面有个dll。把sigar-amd64-winnt.dll改为sigar-amd64-winntt.dll再重新启动,就可以了。后面在cassandra.bat中加jdk环境变量,还是不能启动。再查看hs_err_pid656.log的错误。1、下载cassandra之后,放到D盘。2、配置cassandra的环境变量。3、启动cassandra。原创 2023-11-18 16:21:29 · 467 阅读 · 1 评论 -
apache-cassandra-4.1.3单机部署及集群部署及简单操作
是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,用于储存特别大的数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。是一套开源分布式Key-Value存储系统。这样单机版本的cassandra安装完成了。一、apache-cassandra介绍。二、apache-cassandra下载。六、进入cassandra。五、启动cassandra。选择一个自己喜欢的版本。四、修改python。原创 2023-11-17 23:04:32 · 1106 阅读 · 0 评论 -
通过代码启动dolphinscheduler-3.2.0伪集群
3.4、dolphinscheduler-alert-server模块。4.5、dolphinscheduler-alert-server模块。3.1、dolphinscheduler-master模块。3.2、dolphinscheduler-worker模块。4.2、dolphinscheduler-master模块。4.3、dolphinscheduler-worker模块。3.3、dolphinscheduler-api模块。4.6、dolphinscheduler-ui模块。原创 2023-11-17 09:21:59 · 202 阅读 · 0 评论 -
通过代码启动dolphinscheduler-3.2.0单机版
DolphinScheduler 是一个分布式的开源调度系统,它提供了一种可视化、可扩展、高可用的任务调度和数据处理方案。进入dolphinscheduler-ui,执行npm install,执行完成之后,通过npm run dev启动ui。进入dolphinscheduler-standalone-server代码启动StandaloneServer。一、apache-dolphinscheduler介绍。3.1、启动dolphinscheduler单机版。三、启动dolphinscheduler。原创 2023-11-17 09:05:32 · 237 阅读 · 0 评论 -
apache-dolphinscheduler-3.2.0集群部署
DolphinScheduler 是一个分布式的开源调度系统,它提供了一种可视化、可扩展、高可用的任务调度和数据处理方案。3.2、修改dolphinscheduler_env.sh配置。一、apache-dolphinscheduler介绍。三、apache-dolphinscheduler配置。四、apache-dolphinscheduler安装。3.1、修改install_env.sh配置。4.2、执行stop-all.sh。4.1、执行install.sh。4.8、node4节点。原创 2023-11-17 08:50:20 · 982 阅读 · 1 评论 -
apache-dolphinscheduler-3.2.0伪集群启动,采用mysql数据库
Apache DolphinScheduler 是一个分布式的开源调度系统,它提供了一种可视化、可扩展、高可用的任务调度和数据处理方案。3.2、进入/usr/local/bigdata/apache-dolphinschedulerW/bin/env。2.1、下载apache-dolphinscheduler。一、apache-dolphinscheduler介绍。三、apache-dolphinscheduler配置。四、apache-dolphinscheduler启动。3.8、查看启动进程。原创 2023-11-17 08:34:06 · 355 阅读 · 0 评论 -
apache-dolphinscheduler-3.2.0 单机启动及改为mysql存储
DolphinScheduler 是一个分布式的开源调度系统,它提供了一种可视化、可扩展、高可用的任务调度和数据处理方案。2.1、下载apache-dolphinscheduler。2.3、dolphinscheduler_env.sh配置。一、apache-dolphinscheduler介绍。二、apache-dolphinscheduler配置。3.1、启动dolphinscheduler。3.3、访问dolphinscheduler。三、dolphinscheduler操作。2.2、H2配置文件。原创 2023-11-17 08:09:24 · 1128 阅读 · 1 评论 -
安装stable-diffusion
Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词(英语)指导下产生图生图的翻译。3.1、创建stable-diffusion虚拟环境。一、stable-diffusion介绍。二、stable-diffusion下载。原创 2023-11-15 01:36:38 · 504 阅读 · 0 评论 -
windows上本地部署ChatGLM2-6B
是智谱AI及清华KEG实验室发布的中英双语对话模型。3.2、进入ChatGLM2-6B。二、下载ChatGLM2-6B。一、ChatGLM-6B介绍。这样LLM大模型就跑起来了。3.4、下载model。原创 2023-11-15 00:27:28 · 504 阅读 · 1 评论 -
canal 1.1.7实现多库多表写mysql和es
是阿里开源的一个增量数据变更收集的工具,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费的一种中间件。启动canal.deployer-1.1.7中的startup.bat。2.2.1、在canal下创建order1,order2。order1的instance.properties配置。order2的instance.properties配置。三、启动canal.adapter-1.1.7。canal.properties的配置。2.1、下载canal.deploy。原创 2023-11-14 22:03:01 · 641 阅读 · 0 评论 -
采用miniconda3安装Tensorflow和PyTorch GPU及Pycharm的配置
这个特性使得模型的构建更灵活,更容易调试,并且能够支持更复杂的模型。在当前虚拟环境下,启动python后,输入import tensorflow as tf 验证tensorflow是否安装成功。4.8、安装pytorch,我们选择cuda 11.8,这个根据自己机器来选定,我们这里只是测试。我们这里没有安装CUDA,如果安装了,就会显示True。四、安装Tensorflow和PyTorch。4.5、安装Tensorflow-gpu。4.7、安装scikit-learn。三、安装miniconda3。原创 2023-11-13 17:01:35 · 643 阅读 · 0 评论 -
采用miniconda3安装Tensorflow和PyTorch CPU及Pycharm的配置
这个特性使得模型的构建更灵活,更容易调试,并且能够支持更复杂的模型。在当前虚拟环境下,启动python后,输入import tensorflow as tf 验证tensorflow是否安装成功。四、安装Tensorflow和PyTorch。3.2、直接按提示安装miniconda3。4.3、安装Tensorflow。4.4、验证Tensorflow。4.7、安装PyTorch。一、Tensorflow介绍。三、安装miniconda3。4.8、安装pyTorch。4.9、验证pyTorch。原创 2023-11-13 16:18:47 · 209 阅读 · 0 评论 -
datax操作
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。二、datax框架设计。原创 2023-11-13 00:19:10 · 201 阅读 · 0 评论 -
在linux安装hadoop集群下执行hive任务
三、上面是安装hadoop集群和hive的方法。这样就可以看到在hadoop上执行的任务了。4.6、hadoop查看任务。一、安装hadoop。4.4、执行统计任务。原创 2023-11-12 02:06:45 · 83 阅读 · 0 评论 -
在linux上部署hadoop-3.3.6,hbase-2.5.6 ,apache-zookeeper-3.8.1集群
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)HBase是一个分布式、可扩展、支持海量数据存储的NoSQL数据库。底层物理存储是以Key-Value的数据格式存储的,HBase中的所有数据文件都存储在Hadoop HDFS文件系统上。一、hadoop介绍。原创 2023-11-12 00:33:23 · 282 阅读 · 0 评论 -
在linux下hadoop集群 DataNode不能启动的情况
注意:服务器的时间需要统一。正常情况下是不允许多次格式化的。这只是在测试环境上才可以这样玩。生产环境需要把VERSION里面的数据拷贝到datanode里面.正常启动后是这样的。最后重启把namenode和datanode里面数据删除掉。重新格式化,再启动hadoop集群,就解决了。这里也没有节点数据,而是空的,这个图是正常的。找了很久原因,发现是datanode没有启动。一、格式化文件之后,重新启动hadoop集群,发现 DataNode不能启动了。原创 2023-11-11 17:25:17 · 495 阅读 · 0 评论 -
在linux下hadoop 3.3.6部署集群
Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)6.1、在主节点启动hdfs,./start-dfs.sh。6.2、在主节点启动yarn,./start-yarn.sh。6.4、在node2节点jps查看。6.5、在node3节点jps查看。4.2、在hadoop创建目录。6.3、在主节点jps查看。一、hadoop介绍。六、hadoop启动。七、查看hadoop。原创 2023-11-11 16:04:46 · 340 阅读 · 0 评论 -
Pulsar可视化部署工具Pulsar-Manager
五、把将dist包拷贝到pulsar-manager/bin目录下并更名为ui。1、需要用jdk8或者jdk11,不能用jdk17或者21。四、再次解压缩pulsar-manager.tar。这里需要注意:需要把ui拷贝到bin的目录下才可以。用户名/密码:pulsar/pulsar。三、解压缩pulsar-manager。二、下载Pulsar-Manager。六、启动pulsar-manager。八、访问pulsar manager。七、初始化超级用户密码。原创 2023-11-03 21:10:16 · 781 阅读 · 0 评论 -
pulsar 3.2.0 的集群配置
这里需要加一个admin.enableServer=false或者替换成其他端口,默认是8080,不修改的话,会导致Broker启动不了。1、最少需要3台服务器,ZooKeeper 集群、Bookkeeper 集群和 Broker 集群。6、其他node2,node3同样的配置,对应的地址改为node2或者node3。4、修改bookkeeper.conf配置(node1节点)5、修改broker.conf配置(node1节点)7、初始化集群元数据(只需执行一次)3、配置zookeeper集群。原创 2023-11-03 19:24:46 · 142 阅读 · 0 评论 -
Linux搭建Kafka集群,KRaft集群搭建
KRaft 运行模式的 Kafka 集群,不会将元数据存储在 Apache ZooKeeper中。即部署新集群的时候,无需部署 ZooKeeper 集群,因为 Kafka 将元数据存储在 controller 节点的 KRaft Quorum中。在kafka的3.0及以上的版本,不建议在生产环境中使用。4.1、生成集群uuid,整个集群中的唯一ID。一、KRaft 模式介绍。4.2、格式化存储目录。4.3、启动kafka。原创 2023-11-10 23:13:28 · 230 阅读 · 0 评论 -
windows10上配置kafka集群
Kafka是由Apache开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有行为记录数据。2、server.properties配置。1、zookeeper配置。三、kafka集群配置。原创 2023-11-10 22:05:28 · 285 阅读 · 0 评论 -
windows上使用kafka.3.6.0
Kafka是由Apache开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有行为记录数据。2、server.properties配置。4.1、启动zookeeper。1、zookeeper配置。5.3、查看具体某个队列。4.2、启动kafka。5.5、消费队列的数据。5.2、查看所有队列。5.4、向队列发数据。原创 2023-11-10 21:12:16 · 257 阅读 · 0 评论 -
linux下spark和hadoop结合,单机版
3.2、修改spark-defaults.conf。3.1、修改spark-env.sh。结合hadoop执行任务。一、安装hadoop。三、修spark配置。原创 2023-11-10 18:01:23 · 97 阅读 · 0 评论 -
linux下spark做集群
是一种通用的大数据计算框架, 正如传统大数据技术Hadoop的MapReduce、 Hive引擎, 以及Storm流式实时计算引擎等. Spark主要用于大数据的计算。进入/usr/local/bigdata/spark-3.5.0-bin-hadoop3/sbin中执行 ./start-all.sh。3、拷贝spark-defaults.conf。四、把配置好的spark拷贝到其他。1、拷贝spark-env.sh。三、spark配置文件的修改。六、查看启动成功后的界面。二、服务器及环境准备。原创 2023-11-10 15:28:38 · 162 阅读 · 0 评论 -
linux安装单机版spark3.5.0
是一种通用的大数据计算框架, 正如传统大数据技术Hadoop的MapReduce、 Hive引擎, 以及Storm流式实时计算引擎等. Spark主要用于大数据的计算。直接进入bin里面,启动./spark-shell。在配置spark之前,需要安装scala。三、spark环境变量配置。原创 2023-11-10 15:21:35 · 452 阅读 · 0 评论 -
linux下安装flink 1.18集群
Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。四、在flink下面创建logs,data,在data下面创建zk和tmp。五、修改 flink-conf.yaml配置文件。原创 2023-11-10 14:09:03 · 725 阅读 · 0 评论 -
linux下安装flink 1.18
Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。进入flink的bin下面,输入./start-cluster.sh 就启动了。在flink下面创建data,在data下面创建zk和tmp。远程就可以访问了,访问地址是http://ip:8081。3.3、配置flink-conf.yaml。3.1、配置环境变量。原创 2023-11-10 12:04:50 · 613 阅读 · 0 评论 -
在linux安装hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。在启动hive之前,需要先启动hadoop,安装和启动hadoop参考以下文章。在hive/bin下面输入./hive start启动,启动成功后的界面。6.1、jdk版本,需要1.8,高于1.8会有兼容性问题。4.2、hive-site.xml文件配置。6.2、与hadoop的版本也有关联关系。三、jdk和hive环境变量配置。四、hive内部文件配置。六、hive注意事项。原创 2023-11-10 10:38:25 · 163 阅读 · 0 评论 -
在linux上配置单机版的hadoop-3.3.6与hbase-2.5.6【hbase结合hadoop保姆级教程】
一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。一个分布式的、面向列的开源数据库。七、启动hadoop和启动hbase。六、修改hbase里面的配置。1、hadoop是什么。2、hbase是什么。四、安装hadoop。原创 2023-11-10 09:17:04 · 592 阅读 · 0 评论 -
在linux安装单机版hadoop-3.3.6
进入etc/hadoop目录下,修改hadoop-env.sh文件。进入sbin目录下输入./start-all.sh。3.5、修改mapred-site.xml。3.4、修改 hdfs-site.xml。3.2、修改hadoop-env.sh。3.3、修改yarn-site.xml。3.6、修改core-site.xml。3.1、在hadoop目录下创建目录。三、修改hadoop对应的配置文件。2、配置hadoop环境变量。五、启动hadoop单机版。1、配置java环境变量。一、下载hadoop。原创 2023-11-09 23:05:46 · 1276 阅读 · 0 评论 -
在linux上脱离hadoop安装hbase-2.5.6集群
4.1、在hbase下创建logs,data,/data/root,/data/tmp, /data/zk。2、每台服务器都配置zookeeper,并且启动zookeeper集群。6.2、进入hbase/bin启动hbase。五、把hbase-2.5.6拷贝到其他节点。4.3、修改hbase-site.xml。4.2、修改hbase-env.sh。3、每台服务器配置hbase环境变量。1、每台服务器都配置jdk环境变量。6.3、把其他hbase依次启动。四、修改hbase配置。原创 2023-11-09 19:54:49 · 327 阅读 · 0 评论 -
在linux上部署apache-zookeeper-3.8.1集群
3.1、在apache-zookeeper-3.8.1/conf下,复制一份zoo_sample.cfg,改名为zoo.cfg。3.3、启动zookeeper之后,就可以通过 ./zkCli.sh 进入zookeeper管理台。在每台服务器上的zookeeper的data目录下都创建myid,并且输入编号1,2,3等数字。4.2、启动在zookeeper/bin目录下启动zookeeper。在zookeeper的/bin下面启动zookeeper。这样就可以启动单机版的zookeeper。原创 2023-11-09 19:17:21 · 288 阅读 · 0 评论