威尼斯的星期天-CSDN博客

原创 Json对象数组转Java对象数组

使用阿里fastjson解析TestDemoimport com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import java.util.ArrayList;public class WordCountTest { private ArrayList<JsonContent> getPlatformList(St

2022-05-09 12:30:21 2258

原创 Kafka加密采集监控解决方案

kafka一般加密采集

2022-01-18 17:45:29 4817

原创 hive常用的inputformat

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; #默认set hive.input.format=org.apache.hadoop.mapred.TextInputFormatorg.apache.hadoop.hive.ql.io.orc.OrcOutputFormat

2022-01-06 17:50:00 2475 2

原创 hdfs普通文本文件合并lzo压缩

lzo压缩并建立相关索引

2022-01-05 11:49:46 409

原创 Ubuntu18.04编译log4j2-2.15.0

2021/12/13号编译2.15.0版本 Log4j2，降低集群风险。

2021-12-13 20:23:59 2138

原创 conda切换环境报错CommandNotFoundError: Your shell has not been properly configured to use ‘conda activate‘

CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.To initialize your shell, run $ conda init <SHELL_NAME>Currently supported shells are: - bash - fish - tcsh - xonsh - zsh - powershellSee

2021-09-09 14:11:30 1374

原创 Docker默认配置占用/var/lib空间问题，迁移目录工作记录

背景在集群监控系统里看到/var/lib目录占用已经达到87%，马上就会告警，所以用du命令检查了磁盘使用情况，发现只要是docker(Docker version 19.03.13)目录占用过多。操作过程查看使用状况sudo du -sh /var/lib/docker/#返回结果3.9G /var/lib/docker/sudo docker system df #返回结果TYPE TOTAL ACTIVE

2021-08-30 13:53:02 683

原创使用docker部署mysql5.7

前言该贴仅限于初级学习环境搭建，不涉及容器排布，docker-compose或者k8s不在此操作，所以该贴不用于生产！创建宿主机目录mkdir -p /root/docker-mysql/datamkdir -p /root/docker-mysql/confmy.cnfvim /root/docker-mysql/conf/my.cnf编写以下内容[mysqld]innodb_data_file_path=ibdata1:5M;ibdata2:5M:autoextendbind-

2021-08-27 11:19:49 367

原创解决pip安装mysqlclient出现 /bin/sh: 1: mysql_config: not found

错误信息ERROR: Command errored out with exit status 1:command: /root/anaconda3/envs/af/bin/python -c ‘import io, os, sys, setuptools, tokenize; sys.argv[0] = ‘"’"’/tmp/pip-install-dl2mdtuy/mysqlclient_c6285f77af9849f1a063879672b01db0/setup.py’"’"’; file=’"’

2021-08-27 10:27:54 2309

原创 Airflow1.10.3以上版本DAG执行过程Task失败集成钉钉机器人告警

前言作者原贴该大佬在19年将代码贡献，利用大佬的代码，简单做配置和写回调函数，即可使用。注意要点钉钉机器人需要创建一个3人以上的群才可以创建，且需要定义关键字，关键字只要包含与告警信息里即可。配置airflow进入webUI，点击admin中的connection然后配置dingding_default注意 host填写https://oapi.dingtalk.com,password填写access_token等号后面的内容，该信息由钉钉机器人提供，只需要复制即可。修改后点击save！

2021-08-25 17:36:25 1571 7

原创 hive执行某张表drop语句无效卡住的情况

现象删除一张表时，发现执行不报错，但是一直卡住。执行其他表查询或者删除语句正常，查看元数据库字符集正常。锁定问题在于单表，查询HIVE_LOCKS发现该表存在锁。复现原因，执行过程中关闭了session窗口（xshell），导致加锁未释放。（在hive操作过程中强制退出后，会导致锁表，并且unlock命令无效）解决办法此时可以去mysql的元数据库中解锁 mysql的元数据中解锁的命令是不同版本可能表名不同，以下是2.3.x版本hive表 mysql>use hive; mysql&gt

2021-07-14 10:52:45 1508 2

原创 hive调优

map控制#每个Map最大输入大小set mapred.max.split.size=256000000;#一个节点上split的至少的大小set mapred.min.split.size.per.node=100000000;#一个交换机下split的至少的大小set mapred.min.split.size.per.rack=100000000;reduce控制# 每个reduce处理的数据量set hive.exec.reduces.bytes.per.reducer=500

2021-04-22 17:13:36 131

原创 hive-jsonserde建表映射

jsonserde简介直接解析json数据转换成hive表，可以配置映射。需要相关jar包支持~样例数据{"a":"2021-03-02 21:27:55","e":"activity_on_start","faceImage":"","p":{"an":".ui.VIPCenterActivity","from":"com.imprexion.adplayer","fromActivity":""},"t":1614691675578,"uid":-1,"v":3,"device_id": "1f4

2021-03-03 17:35:15 650 2

原创 sqoop数据导出注意事项

1.hive->pgsql数据由HDFS中的Hive表导出到关系数据库PGSQL中，导出数据时，关系型数据库中的存放导入数据的表需要遵以下规则hive中数据字段列类型顺序和pgsql中表字段列类型顺序一致，sqoop导出时，sqoop不是将hive字段导出到对应pgsql表字段中，所以导出时，一定要注意表字段顺序和类型！字段名称顺序不同时，如果字段列类型顺序相同，导出是成功的，但是会有数据所在列和hive中列不一致的情况，特别是通过alter table操作得到的新表！...

2021-02-20 14:11:30 788 4

原创 Ubuntu中开启和关闭防火墙-摘自网络

1、关闭ubuntu的防火墙ufw disable开启防火墙ufw enable2、卸载了iptablesapt-get remove iptables3、关闭ubuntu中的防火墙的其余命令iptables -P INPUT ACCEPTiptables -P FORWARD ACCEPTiptables -P OUTPUT ACCEPTiptables -F

2021-02-19 20:07:50 2568

原创部署docker版Prometheus+grafana+监控kafka和系统状态

这就是普罗米修斯处于的位置。普罗米修斯具有一个服务端，这个服务端提供两类服务，一个是主动poll数据的服务，一种是等待exporter端push数据。这里有个玩意是exporter，那么什么是Exporter？Exporter广义上讲所有可以向Prometheus提供监控样本数据的程序都可以被称为一个Exporter。类比于Zabbix中的agent。Exporter来源一般社区会提供大部分的exporter，而有些则是一些大牛或者编程爱好者写的，目前Promthues社区官方提供了对以下编程语言

2021-01-28 18:01:58 2652

原创 SSH远程登录，拒绝root账户登录

乌班图用户需要安装ssh服务。安装完成后编辑vim /etc/ssh/sshd_config配置本地root免密的时候将注释打开，注释第一行PermitRootLogin prohibit-password#PermitRootLogin yes配置以后如果ssh免密配置好，在已有公钥的电脑上通过ssh 可以免密登录的。但是如果是别的电脑是无法通过ssh用root账户登录。...

2021-01-27 14:53:41 1762 2

转载 flume----HDFS sink 启动时产生大量小文件处理办法

1.问题背景通过flume直接上传实时数据到hdfs，会常遇到的一个问题就是小文件，需要调参数来设置，往往在生产环境参数大小也不同1.flume滚动配置为何不起作用？2.通过源码分析得出什么原因？3.该如何解决flume小文件？2. 过程分析接着上一篇，blog.csdn.net/hu_lichao/a…本人在测试hdfs的sink，发现sink端的文件滚动配置项起不到任何作用，配置如下：a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.

2021-01-27 10:53:09 952

原创 kafka2.4.0（0.10.0 以上）配置多ip监听

前言与第三方数据同步，约定使用kafka作为接收数据的中间件，但是之前配置有问题，所以导致外网无法向我们集群生产数据（我们的集群有公网网卡，对外暴露了指定的端口），后来查了很多资料才知道，需要做一些配置，下面我将配置要点贴下面。配置方法找到kafka的server.properties进行修改红色部分绑定该节点的内网ip加端口号listeners=PLAINTEXT://hostname:port绿色部分绑定该节点的外网ip加端口号advertised.listeners=PLAINT

2021-01-15 16:13:35 4390 4

原创 flink on yarn使用第三方jars的方法&如何查看进程所持有jar包

前言在yarn上跑的程序必须拥有代码，环境，配置。flink on yarn模式，用户提交完jar以后，通过yarn调度队列，任务jar会被分配到某个节点，连同配置，环境，一起被分发到某个Task节点。flink run 命令参数详情1 参数必选： -n,--container <arg> 分配多少个yarn容器 (=taskmanager的数量) 2 参数可选： -D <arg> 动态属性

2021-01-08 23:29:01 4237

原创基于ubuntu系统18.04keepalived+nginx做一个负载均衡高可用flask单服务case

前言偶然情况下，接触到开源的埋点SDK，苦于没有接收端，于是在github上找到了一个开源项目。此开源项目具有接收与分析功能，用Python写的flask服务，名字叫做鬼策，这里不过多阐述该项目，有兴趣的可以自行了解。该作者比较佛系，不过在github上比较活跃。由于flask服务有瓶颈，需要做一个负载均衡，优先想到了nginx，由于nginx多是单点服务，可能会遇到单点故障，所以通过keepalived来做一个高可用支撑。环境准备keepalived安装keepalived和nginx安装部署并不

2021-01-05 17:30:34 472

原创 Ubuntu18.04安装keepalived

参考博客安装指南计算机网络知识正文安装步骤安装前环境准备sudo apt-get install libssl-devsudo apt-get install libpopt-devsudo apt-get install daemonsudo apt-get install build-essentialsudo apt-get install libssl-dev sudo apt-get install openssl sudo apt-get install libpopt-

2021-01-04 16:21:42 4063

原创 hive中日期24小时制，转换补0

背景日期字符串 2020-02-02 2:00:00 如何在2点前面补0，成为2020-02-02 02:00:00。select unix_timestamp('2020-02-02 2:02:02'), unix_timestamp('2020-02-02 02:02:02');看明白上面的查询结构就不难解决这个问题。将返回结果再调用一次from_unixtime(timestamp,format)即from_unixtime(unix_timestamp('2020-02-02 2:02

2020-12-16 17:14:02 2748

原创 Hive中load数据注意事项

如果是load到一个分区表那么语法应该是load data inpath '$yourpath' overwrite into table ${yourtable} partition(dt='2020-12-10');但是需要注意的事：load到哪个目录，哪个目录中不能放需要load的文件。而且最重要的一点，需要load的文件，必须放到一个空文件夹里，每次执行load的时候，会将这个文件夹里的数据都load走，最后将文件夹删除！...

2020-12-11 16:39:32 1510

原创误删除mysql5.7中的root localhost用户，如何重新创建root用户

测试环境中想着要配置root的远程登录，就把localhost删除了，然后还刷新了权限，一退出，我mysqlroot就不能用了，wcao，忍不住想爆粗口，那就只能去想办法恢复呗。第一步关闭mysql服务systemctl stop mysql.service第二步开启免验证登录，进入安全模式mysqld_safe --skip-grant-tables --skip-networking &第三步进入mysql系统mysql -u root第四步创建一个root用户IN

2020-11-26 15:09:49 2775

原创 AirFlow高阶，两个启动时间不同DAG中的任务依赖关联demo

前言背景有个调度需求，查询以前历史DAG发现，有一个DAG可以作为我新调度的前置，所以想看看DAG之间task如何关联，所以有了下面的Demo。如果会科学上网，英语听力还不错的，可以移驾这里，这个大佬讲的会更到位！原理DAG A和DAG B是两个不同py文件写的，我A中一个task是我B中一个task的依赖，只有当A执行完了，我的B才能执行，那么该如何做呢，那么就应该安排一个监工的，看着A中指定task是否执行成功，执行成功那就监工就可以撤了，让B中的那个任务开始执行。Master.pyvim

2020-11-25 16:58:09 6003 4

原创下载geoip/GeoLite2-ASN.mmdb&GeoLite2-City.mmdb

https://github.com/zhengkw/GeoLite2有资源的可以push，找了半天全是付费资源。只能借助同性交友网站了。

2020-11-24 20:53:08 5025

原创 kettle表输入传动态参数，将表输入转换放到job中，命令传参

前言写一个转换，转换中有获取系统变量和设置变量，还有表输入等其他信息。将转换放到一个job中，利用./kitchen.sh 来传递参数。这里需要设置作业里的参数和转换里的参数，为了描述下面一些特殊操作，所以特此记录！1.点击titile例如在job作业中，点击star组件，会弹出一个提示框红色框部分即为titile，双击以后就会看到设置job的页面，转换同理！2.设置作业参数点击命名参数，然后在里面编辑你传递的参数名！创建一个转换1.获取系统信息变量因为表输入里动态参数为proct2

2020-11-23 14:20:17 10665 1

转载 hive中orc小文件优化

小文件的缺陷我们就不说了，直接进入到正题.HIVE自动合并输出的小文件的主要优化手段为：set hive.merge.mapfiles = true：在只有map的作业结束时合并小文件，set hive.merge.mapredfiles = true：在Map-Reduce的任务结束时合并小文件，默认为False；set hive.merge.size.per.task = 256000000; 合并后每个文件的大小，默认256000000set hive.merge.smallfiles.av

2020-11-07 16:40:36 2504 1

原创 shell脚本传入字符串日期格式，对其加减运算

#!/bin/bash#1. 确定要导入数据的日期if [ -n "$1" ]then do_date=$1 #传入任意日期都可以加减！ raldate=$(date -d "$1 -1days" "+%Y-%m-%d" ) #echo "$do_date" #echo "$raldate ->rd"else do_date=$(date -d 'yesterday' '+%Y%m%d')

2020-11-06 16:11:52 3596

原创 linux下用命令运行kettle中的trans并传参数

前言这个比较简单直接上命令./pan.sh -file=/home/impdatahd/kettle/kettle_transition/test01.ktr -logfile = /home/impdatahd/kettle/log/zhengkw.log -trans =test01 -param:create_time= '2020-08-01' -level=basic>>/home/impdatahd/kettle/log/test_$(date "+%Y%m%d").l

2020-10-29 11:50:47 1767 2

原创 linux下给kettle的job传递参数

前言一个job内有2个转换，一个转换获取系统命令传递的参数。一个转换是将获取的参数作为动态参数用于查询sql。addparms特别注意，使用获取字段，他的变量名会自动获取，所以大写！那么SQL里面的动态参数也必须大写！type记住选root job就行！我这里就一个job！jobdo表输入中传递动态参数！在linux中需要修改的地方我在kettle下面创建了几个目录用于放对应的文件！需要将job配置文件修改，因为我是在windows下制作的job和trans，所以他的文件路径都是win

2020-10-29 11:45:19 1374

原创 hadoop3.2.0，kafka_2.12-2.4.0 flume采集方案demo

效果根据消息中的事件时间来分目录，按照年月日分！前言公司有个数据采集需求，因为历史原因，我们公司使用的hadoop和kafka版本比较高，所以我采用了1.9.0的flume进行开发，flume内存调优这里就不讲了，有兴趣的自己去搜下。第一次使用肯定需要调优。环境准备java 1.8 flume 1.9.0 kafka_2.12-2.4.0 hadoop3.2.0flume的lib中需要将hadoop的一些依赖放进去，在hadoop3.2.0中慢慢去找hadoop-3.2.0/share/ha

2020-10-27 20:10:32 563

原创 python demo1 条件分支

def game() : temp =input(' input one num ') guess = int(temp) if guess == 8: print('you are right') else : if guess > 8: print('gt') else : print('lt') print('game over!')if __name__ ==

2020-10-26 23:58:56 646

原创 Could not find artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde in nexus-aliyun

原因mvn配置文件中指定的镜像仓库中没有对应的jar包，后来百度了很多包括google，github上看了很多解决办法以后才知道，原来这个jar是在spring插件仓库里。所以有了后面的对mvn配置文件修改。解决办法<mirror> <id>aliyunmaven</id> <mirrorOf>*</mirrorOf> <name>阿里云spring插件仓库</name> <url>http

2020-10-22 15:44:04 8361 5

原创 Flink1.11.2-scala 2.12.12 & No implicits found for parameter evidence$12

原因当前环境之下找到不到scala的包解决办法引入包import org.apache.flink.api.scala._

2020-10-22 12:56:46 482

原创 idea使用maven快速构建flink骨架项目

Scala版Flink程序编写本项目使用的Flink版本为最新版本，也就是1.11.2。现在提供maven项目的配置文件。使用Intellij IDEA创建一个Maven新项目勾选Create from archetype，然后点击Add Archetype按钮GroupId中输入org.apache.flink，ArtifactId中输入flink-quickstart-scala，Version中输入1.11.2，然后点击OK点击向右箭头，出现下拉列表，选中flink-quickstart-s

2020-10-22 12:54:23 1754

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

typora-setup-x64-0.9.86.rar

Git-2.26.2-64-bit-32bit.rar

dbeaver-ce-7.1.0-x86_64-setup.rar

dbeaver-ce-7.0.2-x86_64-setup.exe+hive驱动

Git-2.26.0-64-bit-windows.rar

空空如也