q495673918-CSDN博客

原创 linux常见问题

当进程内存限制过小，JVM内存过大时，就没有内存空间继续分配新的线程，就会产生。调整服务器进程最大内存限制(默认是32768即32G)进入linux系统查看当前用户最大进程数。2.服务器进程最大内存限制。对每个进程有内存大小限制。

2024-08-30 11:10:28 341

原创自动化运维工具——批量操作工具-ansible

【代码】自动化运维工具——批量操作工具-ansible。

2024-06-12 11:14:24 178

原创 mysql迁移

适用于离线迁移，全量迁移，少量迁移，数据库大小在几百兆范围内，时间需要几十秒到几分钟不等。选择源库，点击右键将数据库复制到目标库即可，目标库需要先建好数据库。

2023-07-05 10:29:30 419

原创防火墙iptables

2者都是防火墙，都是属于包过滤防火墙。

2023-04-14 14:30:21 584

原创 zeppelin安装及使用

此时可以通过jps命令看到ZeppelinServer进程。指定spark_home,模式，启动用户等。如果下载慢，可以通过迅雷下载。也可以添加属性，设置使用队列。并重启zeppelin。

2023-03-20 11:31:59 1570

原创阿里云EMR集群搭建及使用

EMR是运行在阿里云平台上的一种大数据处理的系统解决方案。可以简单的理解为一个对标ambari的产品。EMR构建于云服务器ECS上，基于开源的Apache Hadoop和Apache Spark。可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR提供on ECS和on ACK两种方式，on ACK指的是容器化。

2023-03-09 17:27:13 4838

原创 kafka安装及使用

在下面地址下载安装包，我们这里下载kafka_2.13-3.4.0.tgz。下载完成之后tar -xzvf kafka_2.13-3.4.0.tgz解压。可以直接网页下载，也可以复制地址之后使用wget下载。在三台机器上和单机方式一样下载3个安装包并解压。集群部署我们需要准备三台服务器。4.kafa基本概念。

2023-02-17 17:57:51 1039

原创 EMR集群运行TPC-DS在云盘和OSS中的对比

TPC-DS是大数据领域最为知名的Benchmark标准。本文介绍使用阿里云EMR集群运行TPC-DS在云盘和OSS中的表现对比。

2023-02-15 15:54:32 585

3.查看文件中损坏的块（-list-corruptfileblocks）8.检查并打印正在被打开执行写操作的文件（-openforwrite）5.将损坏的文件移动至/lost+found目录（-move）10.打印文件块的位置信息（-locations）11.打印文件块位置所在的机架信息（-racks）9.打印文件的Block报告（-blocks）7.检查并列出所有文件状态（-files）6.删除损坏的文件（-delete）2.检查磁盘是否损坏(fsck)

2023-01-31 14:35:28 470

原创 dolphinScheduler安装

默认的用户名和密码是 admin/dolphinscheduler123。

2023-01-31 14:30:40 287

原创 ElasticSearch

1.设置索引的mapping2.索引父文档3.索引子文档父文档和子文档必须在同一个分片上,确保join查询性能当指定子文档的时候，必须指定父文档ID,使用rooting参数，保证分配到同一个分片上4.按需查询文档。

2023-01-29 16:11:14 325

原创 mongodb安装及使用

mongodb是一款面向文档存储的nosql数据库。2.更新yum源3.下载mongodb4.查看安装目录5.配置mongodb6.开启mongodb服务4.常用命令

2022-12-05 15:20:00 554

原创 StarRocks简介及安装

StarRocks 是一款高性能分析型数据仓库，既支持从各类实时和离线的数据源高效导入数据，也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协议，可使用 MySQL 客户端和常用 BI 工具对接。广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。

2022-10-31 16:47:53 8161 1

原创 trino安装及使用

trino适合多数据源的即席查询，它是把数据通过connector拉取回来，然后使用自己的引擎进行关联运算，所以其速度必然受限于传输速度，不适合跨网络的大数据量的关联查询。像spark之类的查询引擎我们都是把尽量分发到数据存储的机器上，trino是把数据拿回来，这就是他们的差异所在。hive源配置如下，我们在catalog目录下创建文件hive.properties，core-site.xml,hdfs-site.xml可以从hadoop集群复制一份然后放到配置文件中。worker的基本配置如下。

2022-10-21 14:19:27 3798

原创 UML图相关

UML是统一建模语言，是由一整套图表组成的标准化建模语言。

2022-09-28 08:47:57 230

原创软件过程改进CMMI

CMMI是由CMM发展而来，CMM是软件能力成熟度模型，CMMI是软件能力成熟度模型集成。CMMI模型有2种表示方法：阶段式和连续式。

2022-09-27 11:48:04 1113

原创软件的维护

软件维护是为了保证系统正常的运行，如果不能运行则通过软件维护的手段使其正常运行。

2022-09-27 11:42:59 561

原创软件测试相关

一个模块给2个人测试，A发现了30个错误，B发现了20个错误，错误中有15个错误都被2人发现了，那DN=(a+b)/c 其中a 30 b 20 c 15。确认测试：验证软件是否和需求一致，包含内部确认测试，alpha测试，beta测试，验收测试。测试管理包含：测试团队管理，测试计划管理，缺陷跟踪管理，测试件管理，主要了解缺陷跟踪管理。系统测试：非功能性的测试,包含压力测试，性能测试，可靠性测试，可用性测试等。白盒测试包含：基本路径测试，逻辑覆盖测试，循环覆盖测试。单元测试：关注模块的测试，局部功能测试。

2022-09-27 11:38:30 318

原创软件系统设计

处理流程设计分为业务流程重组和业务流程管理。

2022-09-27 11:29:11 742

原创软件需求开发

数据模型，典型工具ER图，描述数据对象间的关系。其分为1对1关系，1对多关系，多对1关系等。建模分为功能模型，数据模型，行为模型，经常用到的有功能模型和数据模型，模型的核心是数据字典。功能模型，典型的工具是数据流图（DFD）,数据流图描述系统逻辑模型，标识了系统的输入输出。结构化需求分析分为发现需求，求精，建模，规格说明，复审。从QFD需求可以分为基本需求，期望需求，兴奋需求。有4个部件，数据流，加工，数据存储，外部实体。需求可以分为业务需求，用户需求，系统需求。描述软件使用和产生的所有数据对象。

2022-09-27 11:08:24 754

原创软件的开发模型

发展历程：在最初我们还没有开发方法，开发模型的时候，我们开发的软件质量很难保证，但随着软件工程的兴起，越来越多的开发方法，开发模型，越来越多的开发文档及规范，开发人员的工作也越来越多，需要写很多的文档，这时候敏捷开发出现了，其思想就是给开发人员减负，抛弃不必须要的文档及流程，采用小步快跑，快速迭代的方式进行开发。螺旋模型是多个模型的组合，包括原型模型，演化模型，增量模型，因其形状是螺旋型，一圈一圈的出来，所以叫做螺旋模型，其最显著的特征是引入了风险分析。敏捷开发不是一个开发模型而是一组开发模型。

2022-09-27 10:14:10 2004 1

原创软件系统的开发方法

软件系统的开发方法有。

2022-09-27 09:21:49 2507

原创软件构件相关

软件构件的三个核心特点。

2022-09-27 09:07:06 2041

原创特定领域软件架构(DSSA)

DSSA是一个在特定应用领域中，为一组应用提供组织结构参考的标准软件体系结构，其是一种有效实现特定领域软件重用的手段。通常是一个具有三个层次的系统模型。DSSA和体系结构之间有何关联？

2022-09-27 08:53:20 2331

原创基于架构的软件设计(ABSD)

基于架构的软件设计（ABSD，Architecture-Based Software Design）是一种架构驱动方法，架构驱动也就是说架构先行，需求获取和分析还没有完成就开始架构设计，需求获取和分析与架构设计并行，例如产品线系统和长期运行的系统，我们不可能开始就能决定所有的需求。

2022-09-27 08:43:45 3721

原创软件架构评估

软件架构评估有三种方式：基于调查问卷，基于度量，基于场景。

2022-09-26 17:02:29 3251

原创软件架构模式

软件架构模式包含2层CS架构，三层CS架构，三层BS架构，混合架构，富互联网应用架构，基于服务的架构。

2022-09-26 16:36:50 2161

原创软件架构风格

软件架构风格包含数据流风格，调用返回风格，独立构件风格，虚拟机风格，仓库风格，c2风格，过程控制/闭环风格。

2022-09-26 16:03:24 1650

原创 mysql常用命令

【代码】mysql常用命令。

2022-09-13 10:55:17 348

原创 spark distinct实现原理

其中reduceByKey会引入shuffle。distinct算子包括3个步骤。

2022-08-29 10:57:48 581

原创 yarn设置应用优先级

LOW VERY_LOW NORMAL（默认） HIGH VERY_HIGH。设置全局最大优先级,默认的是0，要想使用必须放开此限制。设置队列的默认优先级。

2022-08-26 17:45:14 1974

原创 yarn资源配置及使用

理想情况下，应用提交到yarn上立马就可以获得资源执行任务，但是现实情况资源往往是有限的，任务执行的先后及获得资源的多少，yarn给我们提供了多种调度器和配置策略供我们选择。适合多个组织共享整个集群，每个组织分配专门的队列，然后每个队列分配一定的资源。资源按百分比进行分配成多个队列，且队列资源可以设置弹性，在队列资源不够的时候可以使用其他队列资源，其他队列有任务的时候会在本队列任务执行完成释放资源还给其他队列。在队列内部，资源调度采用先进先出(FIFO)策略。......

2022-08-11 12:18:06 3027

原创 yarn命令

查看指定attempt所申请创建的containers。查看container的某个日志文件的具体内容。查看application的attempts。查询指定的applicaiton集合。查看container的日志列表。

2022-08-09 17:15:03 226

原创 hive常用命令

代码】hive常用命令。

2022-08-09 10:40:01 588

原创 hive常见表结构

但是，如果数据量并不大（预测不会有超大文件，若干G以上）的情况下，使用ORC存储，snappy压缩的效率还是非常高的。Parquet 最初的设计动机是存储嵌套式数据,，比如Protocolbuffer，thrift，json等，将这类数据存储成列式格式，以方便对其高效压缩和编码，且使用更少的IO操作取出需要的数据。Rcfile在进行数据读取时会顺序处理HDFS块中的每个行组，读取行组的元数据头部和给定查询需要的列，将其加载到内存中并进行解压，直到处理下一个行组。优势：基于列存储，压缩快且效率更高，；....

2022-08-09 10:30:35 2331

原创 java8lambda表达式

Lambda表达式，也可称为闭包，它是推动Java8发布的最重要新特性。Lambda允许把函数作为一个方法的参数（函数作为参数传递进方法中）。使用Lambda表达式可以使代码变的更加简洁紧凑。需要注意的是lambda表达式需要函数式接口来接收。接口添加了@FunctionalInterface注解。返回值如果主体只有一个表达式返回值则编译器会自动返回值，大括号需要指定表达式返回了一个数值。参数根据需要，可填可不填。......

2022-07-22 12:08:06 148

原创 netty简介及demo程序

目录1.netty是什么2.BIO和NIO的区别3.netty的主要组件及概念4.demo1.server2.serverHandler3.client4.clientHandler5.启动Netty是一款基于NIO（Nonblocking I/O，非阻塞IO）开发的网络通信框架，用于快速开发可维护的高性能协议服务器和客户端。简单来说它将java NIO进行了大量封装，大大降低了java NIO的上手难度。它具有并发高，传输快，封装好的优点。 BIO：同步阻塞IO,在BIO中每一个连接都需要分配一个线程来执

2022-07-13 17:35:36 476

原创 spark调优

目录1.官网硬件配置建议2.官网优化建议1.数据序列化优化2.确定内存消耗大小的方法3.结构优化4.gc优化1.度量GC的影响2.GC优化5.并行度设置6.reduce任务的内存使用7.广播变量8.数据局部性3.spark参数1.num-executors2.executor-memory3.executor-cores4.driver-memory5.spark.default.parallelism6.参数参考示例官网建议Hardware Provisioning - Spark 3.3.0 Docum

2022-06-27 15:46:24 935

原创 zookeeper集群搭建

1.准备3个节点且都安装java8wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gztar -xzvf zookeeper-3.4.10.tar.gz -C /data/cd confcp zoo_sample.cfg zoo.cfg修改 dataDir及添加serverdataDir=/data/zookeeper-3.4.10/dataserver.1=hdp01:2888:388

2022-06-13 15:34:01 169

原创 spark高可用集群搭建（stanalone）

目录1.环境准备2.配置文件3.服务启动4.验证5.测试大体和非可用的搭建方式差不多，不同的是多了zookeeper集群，用来帮助spark实现高可用worker1,worker2,worker3上面部署zookeeper集群修改spark-env.sh,添加以下内容 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=worker1:2181,worker2:21

2022-06-13 15:19:54 921

空空如也

空空如也