不会吐丝的蜘蛛侠。-CSDN博客

原创 lftp下载远端ftp/sftp文件

【代码】lftp下载远端ftp/sftp文件。

2024-03-27 11:20:29 245

原创 grafana+prometheus+hiveserver2(jmx_exporter+metrics)

grafana+prometheus+hiveserver2(jmx_exporter+metrics)

2024-02-07 16:17:44 984

原创 Hadoop生态漏洞修复记录

Hadoop、zookeeper、hive漏洞修复

2023-03-28 10:11:24 2673

原创如何查看kafka的topic的消费者组有没有积压

如何查看kafka的topic的消费者组有没有积压

2023-03-09 20:36:39 5670

1、多次INSERT单次扫描表使用场景：--当需要多次从一张分区表查出某分区的数据放到一张新表时，下边SQL会多次扫描表。INSERT INTO temp_table_20201115 SELECT * FROM my_table WHERE dt ='2020-11-15';INSERT INTO temp_table_20201116 SELECT * FROM my_table WHERE dt ='2020-11-16';使用方法：--只用扫描一次表。FROM my_tableIN

2022-05-05 14:35:12 1790

原创 docker制作centos7-python的基础镜像

拉取一个centos镜像docker pull centos:7.6.1810运行镜像； a9955a724b02 是centos:7.6.1810 镜像IDdocker run -d -t -i a9955a724b02 bash将python的tar包复制到容器内； 95005a44bc4e 是运行的容器IDpython.tar包地址：https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgzdocker cp Python-3.6.

2022-04-08 15:21:42 1784

原创 hive参数调优

集群最优配置的最好方式是通过实验测试，然后衡量结果。普通配置--元数据连接超时set hive.metastore.client.socket.timeout=500;--指定MR任务运行队列set mapreduce.job.queuename=bigdata;--指定作业名称,如果脚本中有多个sql语句，那么你设定jobname后，所有的sql生成的job都会有同一个名字set mapred.job.name=jobname;并行化配置hive默认job是顺序进行的，一个HQL拆分成

2022-03-31 12:09:31 3523

原创 nginx service配置

[Unit]Description=The nginx HTTP and reverse proxy serverAfter=network.target remote-fs.target nss-lookup.target[Service]Type=forkingPIDFile=/export/servers/nginx/nginx.pidExecStartPre=/usr/bin/rm -f /export/servers/nginx/nginx.pidExecStartPre=/usr

2022-03-28 09:45:40 4329

原创 hive参数配置调优

参数设置方式1、配置文件（全局有效）2、命令行参数（对 hive 启动实例有效）3、命令行参数声明（对 hive 的连接 session 有效）作业设置set mapreduce.job.name=${fileName}_0; --作业名称set mapreduce.job.priorite=NORMAL; --作业优先级set mapreduce.job.queuename=default; --作业队列适当加大mapset mapreduce.input.fileinputform

2022-03-16 15:11:06 3219

原创 HDFS执行balance报错：hdfs balance java.io.IOException: Another Balancer is running.. Exiting

现象：1、大数据Hadoop集群，HDFS扩容后，为了使各节点数据均衡，执行balance操作。2、启动 hdfs balance 时，一直出现其他的balance在执行中，其实并没有执行。java.io.IOException: Another Balancer is running… Exiting …解决方法：网上的思路：①HDFS在运行Balancer的时候，会将运行Balancer的主机名写入到balancer.id这个文件里面，通过这个Mark File来检测Balancer是否运

2022-03-09 10:03:02 2782

原创 linux-centos7防火墙设置

firewalld：启动： systemctl start firewalld查看状态： systemctl status firewalld 停止：systemctl stop firewalld 禁用：systemctl disable firewalld

2022-03-02 10:06:43 116

原创 window在cmd命令行设置java环境变量path

set path="C:\Windows\System32"

2022-03-02 10:04:56 855

原创 hive自定义UDF依赖第三方jar包

上传jar包到HDFS上hdfs dfs -put xxxx.jar /tmp/hive/创建永久函数：create function my_fun as 'com.test.TestUDF' using jar 'hdfs:///tmp/hive/xxxx.jar';创建临时函数（只对当前窗口的命令行可用）：create temporary function my_fun as 'com.test.TestUDF' using jar 'hdfs:///tmp/hive/xxxx.jar';

2022-02-23 09:59:47 3863

原创 hadoop调优-hdfs配置优化

配置文件hdfs-site.xml生产环境建议优化：<property> <name>dfs.permissions.enabled</name> <value>true</value> </property> &

2022-02-22 13:59:35 532

原创 hadoop调优-HDFS集群数据不均衡处理hdfs balancer

查看当前的数据分布情况：hdfs dfsadmin -report现象一：集群上经常会增添新的DataNode节点，或者人为干预将数据的副本数降低或者增加。会造成datanode数据存储不均衡，一个datanode使用了70%，而有一个只使用了30%.解决：通过执行hadoop提供的balancer，来进行datanode之间数据balance。步骤：1、命令行设置宽带（如果在启动Hadoop集群前已优化该参数则不需要执行此步骤）参数：<!-- HDFS做负载均衡时使用的最大宽带，

2022-02-22 11:24:00 2182

原创 zookeeper连接数Too many connections from /10.00.00.00 - max is 60

报错：[myid:1] - WARN [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@211] - Too many connections from /10.00.00.00 - max is 60原因：Zookeeper配置文件zzo.cfg默认配置参数-maxClientCnxns=60ZooKeeper关于maxClientCnxns参数的官方解释：单个客户端与单台服务器之间的连接数的限制，是ip级别的，默

2022-02-21 14:50:30 4236

原创 vim快捷命令

光标移动^ 移动光标到行首$ 移动光标到行尾G 移动到末行1G 移动到首行50G 移动到50行H 移动到当前窗口的首行M 移动到当前窗口的中间位置L 移动光标到当前窗口的最后一行i 在当前光标处进行编辑I 在行首插入A 在行末插入a 在光标后插入编辑o 在当前行后插入一个新行O 在当前行前插入一个新行cw 替换从光标所在位置后到一个单词结尾的字符快捷键u 撤销你刚才做的动作ctrl+r 是恢复你刚才撤销的动作ctrl+b 类似于键盘上

2022-02-16 18:02:46 537

原创 spark运行失败The directory item limit of /spark_dir/spark_eventLogs is exceeded: limit=1048576 items=104

报错：org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$MaxDirectoryItemsExceededException): The directory item limit of /spark_dir/spark_eventLogs is exceeded: limit=1048576 items=1048576解决方法：修改配置文件，重启namenode，datanod

2022-02-16 17:41:53 1300

空空如也

空空如也