令狐冲1008-CSDN博客

原创 Flink常用操作命令

Flink客户端操作命令1.基于Yarn模式提交任务使用平台jar包测试：./bin/flink run -m yarn-cluster -p 2 ./examples/batch/WordCount.jar \--input hdfs:///user/wupq/words.txt \--output hdfs:///user/wupq/output2/2020122301提交自己编写代码：./bin/flink run -m yarn

2021-02-23 10:40:17 5489 1

原创 Maven编译Spark程序jar包体积大，上传时间长的完美解决方案

Maven编译Spark程序jar包体积大，上传时间长的完美解决方案问题大家使用Maven编译Spark程序打包可能会遇到下边的情况：打一个jar包花费长达3分钟的时间一个jar包的体积200多MB，如果依赖多可能会更大再加上公司这种佛系网络，只能喝喝茶，谈谈人生与理想了解决方案我们可以使用下列步骤来解决：在HDFS创建一个目录来缓存程序依赖的jar包，这里要注意权限问题...

2019-12-11 16:31:29 1506 1

原创 hdfs大量小文件压缩

继上一期的文件压缩之后，遇到两个问题，一是部分日志数量量较大，一天的量级已经超过100G了，所以通过ftp拉数据到本地，时间太长了，这种方式不太可取。二是因为日志是spark streaming实时采集的，数据分布不太均匀，大的有5个G，小的只有几十MB,这样即便压缩之后大量小文件对hdfs的读取性能也是有很大影响的，针对这种情况，给出以下方案：归档先将这部分数据进行归档，归档可以合并大量小...

2019-03-29 16:08:48 1362

原创 hdfs文件压缩

由于历史日志的多年积攒，集群的资源十分紧张，而且有一些日志对线上意义已经不大了，所以部分日志需要清除，部分需要压缩，释放资源。删除日志hadoop fs -rm -r /user/hdfs/rsync/2017*/*.txt*为通配，该命令慎用，建议多次测试之后使用压缩日志第一次尝试使用hdfs上自带的归档命令进行操作hadoop archive -archiveName 最...

2019-03-11 17:13:04 2567 1

原创大数据集群在物理机与虚拟机部署分析

物理机与虚拟机大数据部署

2023-05-23 16:15:24 1779

原创 Yarn-HDFS读写测试

size 10MB ：每个文件10MB。-nrFiles 10：写入10个文件。-write：测试写入。–查看生成的测试数据。

2023-05-23 15:51:46 141

原创 Yarn常用操作命令

yarn任务状态信息会保存在zk中，调整参数时要考虑zk的内存大小，参数过大会把zk写挂。

2023-05-23 15:47:40 2639

原创 Sqoop常用操作命令

注意： Sqoop导入数据时，如果多个数据源使用同一个Sqoop客户端，需要注意jdbc jar包冲突问题，建议每个数据源使用独立的Sqoop客户端。

2023-05-23 15:42:27 215

原创 k8s常用操作命令

可用于将Deployment及其Pod缩小为零个副本，实际上杀死了所有副本。当您将其缩放回1/1时，将创建一个新的Pod，重新启动您的应用程序。-A 查看所有命名空间pods。-n 后跟 namespace。-o wide 查看详细信息。

2023-05-23 15:36:37 3617 1

原创 MySQL常用操作命令

STR_TO_DATE(str,format)函数是将时间格式的字符串（str），按照所提供的显示格式（format）转换为DATETIME类型的值。返回字符串str，将其左填充字符串padstr至len个字符的长度。如果str大于len，则返回值缩短为len个字符。DATE_FORMAT(date,format)函数是把数据库的日期转换为对应的字符串格式。

2023-05-23 15:17:19 52

原创 Zookeeper常用操作命令

在zkEnv.sh 将下面的WARN手动改为INFO export ZOO_LOG4J_PROP=WARN,ROLLINGFILE。[-s] [-e]：-s 和 -e 都是可选的，-s 代表顺序节点， -e 代表临时节点，注意其中 -s 和 -e。在log4j.properties中加入 zookeeper.log.threshold INFO。zookeeper.root.logger INFO,ROLLINGFILE 重启zk即可。可以同时使用的，并且临时节点不能再创建子节点。

2023-05-23 15:06:34 986

原创 Zookeeper内存调整方法

将以下参数拷贝到/usr/local/service/zookeeper/bin/zkServer.sh 中。注意：带kerberos的环境需要格外关注认证问题。

2023-05-23 14:50:25 1901

原创 Phoenix常用操作命令

注意：对于常量字符串，使用单引号，对于表名，字段名的小写使用双引号。

2023-05-23 14:26:44 684

转载 Spark内存管理机制

一、概述Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解...

2020-05-05 13:41:45 291

转载谓词下推

谓词下推摘要经常听到谓词下推这个显得高大上的词，但一直没有真正理解到底是啥意思。查了一些资料，有了一定理解，在这里记录下。0x01 什么是谓词谓词，用来描述或判定客体性质、特征或者客体之间关系的词项。根据《现代汉语》的定义汉语的谓词包括动词和形容词。谓词，英文翻译为pred...

2020-04-26 17:03:17 298

原创 Linux最详细教程

Linux基础教程自定义Linux虚拟机安装网络配置1.node1网络配置2.通过快照克隆虚拟机3.配置其他三个节点虚拟机Linux简单命令shell命令运行原理图1.关机与重启2.判断命令的命令3.常用功能命令4.文件系统命令文件系统层次化标准(File System Hi...

2020-04-26 16:58:44 1180

转载 MapReduce shuffle和Spark shuffle对比分析

大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark，mapReducehe和Spark之间的最大区别是前者较偏向于离线处理，而后者重视实现性，下面主要介绍mapReducehe和Spark两者的shuffle过程。MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。Ma...

2020-04-10 16:44:43 471

原创 HBase Shell常用操作命令

CACHE每次去取的缓存区大小，默认是10，调整该参数可提高查询速度。权限用五个字母表示： “RWXCA”. READ(‘R’), WRITE(‘W’), EXEC(‘X’), CREATE(‘C’),语法：count <table>, {INTERVAL => intervalNum, CACHE => cacheNum}例如，查询表t1中的行数，每100条显示一次，缓存区为500。从快照克隆出一张新的表H_DSE_TRACE_2。创建表H_DSE_TRACE的快照。

2020-04-10 10:06:01 218

转载 Druid详细解读

Druid高效架构我们知道Druid能够同时提供对大数据集的实时摄入和高效复杂查询的性能，主要原因就是它独到的架构设计和基于Datasource与Segment的数据存储结构。接下来我们会分别从数据存储和系统节点架构两方面来深入了解一下Druid的架构。数据存储Druid将数据组织成Read-Optimized的结构，而这也是Druid能够支持交互式查询的关键。Druid中的数据存储在被称...

2019-07-23 15:23:44 1553

转载 Linux 中的各种栈：进程栈线程栈内核栈中断栈

转栈是什么？栈有什么作用？首先，栈 (stack) 是一种串列形式的数据结构。这种数据结构的特点是后入先出 (LIFO, Last In First Out)，数据只能在串列的一端 (称为：栈顶 top) 进行推入 (push) 和弹出 (po...

2019-07-23 14:18:33 207 1

原创 Python 操作hdfs,包含追加数据

Python操作hdfs#!coding:utf-8import sys from hdfs.client import Client#设置utf-8模式reload(sys)sys.setdefaultencoding( “utf-8” )#关于python操作hdfs的API可以查看官网:#https://hdfscli.readthedocs.io...

2019-03-08 15:14:16 1549

转载云计算、大数据和人工智能还没弄明白吗（二）

3大数据时代，众人拾柴火焰高当数据量很小时，很少的几台机器就能解决。慢慢的，当数据量越来越大，最牛的服务器都解决不了问题时，怎么办呢？这时就要聚合多台机器的力量，大家齐心协力一起把这个事搞定，众人拾柴火焰高。对于数据的收集：就IoT来讲，外面部署这成千上万的检测设备，将大量的温度、湿度、监控、电力等数据统统收集上来；就互联网网页的搜索引擎来讲，需要将整个互联网所有的网页...

2019-03-07 09:39:42 271

转载云计算、大数据和人工智能还没弄明白吗（一）

转云计算、大数据和人工智能（1）原文路径：https://blog.csdn.net/wangyiyungw/article/details/84334958今天跟大家讲讲云计算、大数据和人工智能。为什么讲这三个东西呢？因为这三个东西现在非常火，并且它们之间好像互相有关系：一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数...

2019-03-06 11:20:02 511

qq_42264264的博客