自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(143)
  • 资源 (5)
  • 收藏
  • 关注

原创 Json对象数组转Java对象数组

使用阿里fastjson解析TestDemoimport com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import java.util.ArrayList;public class WordCountTest { private ArrayList<JsonContent> getPlatformList(St

2022-05-09 12:30:21 2204

原创 Kafka加密采集监控解决方案

kafka一般加密采集

2022-01-18 17:45:29 4404

原创 hive常用的inputformat

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; #默认set hive.input.format=org.apache.hadoop.mapred.TextInputFormatorg.apache.hadoop.hive.ql.io.orc.OrcOutputFormat

2022-01-06 17:50:00 2392 2

原创 hdfs普通文本文件合并lzo压缩

lzo压缩并建立相关索引

2022-01-05 11:49:46 368

原创 Ubuntu18.04编译log4j2-2.15.0

2021/12/13号编译2.15.0版本 Log4j2,降低集群风险。

2021-12-13 20:23:59 2071

原创 conda切换环境报错CommandNotFoundError: Your shell has not been properly configured to use ‘conda activate‘

CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.To initialize your shell, run $ conda init <SHELL_NAME>Currently supported shells are: - bash - fish - tcsh - xonsh - zsh - powershellSee

2021-09-09 14:11:30 595

原创 Docker默认配置占用/var/lib空间问题,迁移目录工作记录

背景在集群监控系统里看到/var/lib目录占用已经达到87%,马上就会告警,所以用du命令检查了磁盘使用情况,发现只要是docker(Docker version 19.03.13)目录占用过多。操作过程查看使用状况sudo du -sh /var/lib/docker/#返回结果3.9G /var/lib/docker/sudo docker system df #返回结果TYPE TOTAL ACTIVE

2021-08-30 13:53:02 615

原创 使用docker部署mysql5.7

前言该贴仅限于初级学习环境搭建,不涉及容器排布,docker-compose或者k8s不在此操作,所以该贴不用于生产!创建宿主机目录mkdir -p /root/docker-mysql/datamkdir -p /root/docker-mysql/confmy.cnfvim /root/docker-mysql/conf/my.cnf编写以下内容[mysqld]innodb_data_file_path=ibdata1:5M;ibdata2:5M:autoextendbind-

2021-08-27 11:19:49 305

原创 解决pip安装mysqlclient出现 /bin/sh: 1: mysql_config: not found

错误信息ERROR: Command errored out with exit status 1:command: /root/anaconda3/envs/af/bin/python -c ‘import io, os, sys, setuptools, tokenize; sys.argv[0] = ‘"’"’/tmp/pip-install-dl2mdtuy/mysqlclient_c6285f77af9849f1a063879672b01db0/setup.py’"’"’; file=’"’

2021-08-27 10:27:54 2191

原创 Airflow1.10.3以上版本DAG执行过程Task失败集成钉钉机器人告警

前言作者原贴该大佬在19年将代码贡献,利用大佬的代码,简单做配置和写回调函数,即可使用。注意要点钉钉机器人需要创建一个3人以上的群才可以创建,且需要定义关键字,关键字只要包含与告警信息里即可。配置airflow进入webUI,点击admin中的connection然后配置dingding_default注意 host填写https://oapi.dingtalk.com,password填写access_token等号后面的内容,该信息由钉钉机器人提供,只需要复制即可。修改后点击save!

2021-08-25 17:36:25 1474 7

原创 hive执行某张表drop语句无效卡住的情况

现象删除一张表时,发现执行不报错,但是一直卡住。执行其他表查询或者删除语句正常,查看元数据库字符集正常。锁定问题在于单表,查询HIVE_LOCKS发现该表存在锁。复现原因,执行过程中关闭了session窗口(xshell),导致加锁未释放。(在hive操作过程中强制退出后,会导致锁表,并且unlock命令无效)解决办法此时可以去mysql的元数据库中解锁 mysql的元数据中解锁的命令是不同版本可能表名不同,以下是2.3.x版本hive表 mysql>use hive; mysql&gt

2021-07-14 10:52:45 1374 2

原创 hive调优

map控制#每个Map最大输入大小set mapred.max.split.size=256000000;#一个节点上split的至少的大小set mapred.min.split.size.per.node=100000000;#一个交换机下split的至少的大小set mapred.min.split.size.per.rack=100000000;reduce控制# 每个reduce处理的数据量set hive.exec.reduces.bytes.per.reducer=500

2021-04-22 17:13:36 98

原创 hive-jsonserde建表映射

jsonserde简介直接解析json数据转换成hive表,可以配置映射。需要相关jar包支持~样例数据{"a":"2021-03-02 21:27:55","e":"activity_on_start","faceImage":"","p":{"an":".ui.VIPCenterActivity","from":"com.imprexion.adplayer","fromActivity":""},"t":1614691675578,"uid":-1,"v":3,"device_id": "1f4

2021-03-03 17:35:15 586 2

原创 sqoop数据导出注意事项

1.hive->pgsql数据由HDFS中的Hive表导出到关系数据库PGSQL中,导出数据时,关系型数据库中的存放导入数据的表需要遵以下规则hive中数据字段列类型顺序和pgsql中表字段列类型顺序一致,sqoop导出时,sqoop不是将hive字段导出到对应pgsql表字段中,所以导出时,一定要注意表字段顺序和类型!字段名称顺序不同时,如果字段列类型顺序相同,导出是成功的,但是会有数据所在列和hive中列不一致的情况,特别是通过alter table操作得到的新表!...

2021-02-20 14:11:30 726 4

原创 Ubuntu中开启和关闭防火墙-摘自网络

1、关闭ubuntu的防火墙ufw disable开启防火墙ufw enable2、卸载了iptablesapt-get remove iptables3、关闭ubuntu中的防火墙的其余命令iptables -P INPUT ACCEPTiptables -P FORWARD ACCEPTiptables -P OUTPUT ACCEPTiptables -F

2021-02-19 20:07:50 2446

原创 部署docker版Prometheus+grafana+监控kafka和系统状态

这就是普罗米修斯处于的位置。普罗米修斯具有一个服务端,这个服务端提供两类服务,一个是主动poll数据的服务,一种是等待exporter端push数据。这里有个玩意是exporter,那么什么是Exporter?Exporter广义上讲所有可以向Prometheus提供监控样本数据的程序都可以被称为一个Exporter。类比于Zabbix中的agent。Exporter来源一般社区会提供大部分的exporter,而有些则是一些大牛或者编程爱好者写的,目前Promthues社区官方提供了对以下编程语言

2021-01-28 18:01:58 2529

原创 SSH远程登录,拒绝root账户登录

乌班图用户需要安装ssh服务。安装完成后编辑vim /etc/ssh/sshd_config配置本地root免密的时候将注释打开,注释第一行PermitRootLogin prohibit-password#PermitRootLogin yes配置以后如果ssh免密配置好,在已有公钥的电脑上通过ssh 可以免密登录的。但是如果是别的电脑是无法通过ssh用root账户登录。...

2021-01-27 14:53:41 1637 2

转载 flume----HDFS sink 启动时产生大量小文件处理办法

1.问题背景通过flume直接上传实时数据到hdfs,会常遇到的一个问题就是小文件,需要调参数来设置,往往在生产环境参数大小也不同1.flume滚动配置为何不起作用?2.通过源码分析得出什么原因?3.该如何解决flume小文件?2. 过程分析接着上一篇,blog.csdn.net/hu_lichao/a…本人在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下:a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.

2021-01-27 10:53:09 861

原创 kafka2.4.0(0.10.0 以上)配置多ip监听

前言与第三方数据同步,约定使用kafka作为接收数据的中间件,但是之前配置有问题,所以导致外网无法向我们集群生产数据(我们的集群有公网网卡,对外暴露了指定的端口),后来查了很多资料才知道,需要做一些配置,下面我将配置要点贴下面。配置方法找到kafka的server.properties进行修改红色部分绑定该节点的内网ip加端口号listeners=PLAINTEXT://hostname:port绿色部分绑定该节点的外网ip加端口号advertised.listeners=PLAINT

2021-01-15 16:13:35 4094 4

原创 flink on yarn使用第三方jars的方法&如何查看进程所持有jar包

前言在yarn上跑的程序必须拥有代码,环境,配置。flink on yarn模式,用户提交完jar以后,通过yarn调度队列,任务jar会被分配到某个节点,连同配置,环境,一起被分发到某个Task节点。flink run 命令参数详情1 参数必选 : -n,--container <arg> 分配多少个yarn容器 (=taskmanager的数量) 2 参数可选 : -D <arg> 动态属性

2021-01-08 23:29:01 4087

原创 基于ubuntu系统18.04keepalived+nginx做一个负载均衡高可用flask单服务case

前言偶然情况下,接触到开源的埋点SDK,苦于没有接收端,于是在github上找到了一个开源项目。此开源项目具有接收与分析功能,用Python写的flask服务,名字叫做鬼策,这里不过多阐述该项目,有兴趣的可以自行了解。该作者比较佛系,不过在github上比较活跃。由于flask服务有瓶颈,需要做一个负载均衡,优先想到了nginx,由于nginx多是单点服务,可能会遇到单点故障,所以通过keepalived来做一个高可用支撑。环境准备keepalived安装keepalived和nginx安装部署并不

2021-01-05 17:30:34 431

原创 Ubuntu18.04安装keepalived

参考博客安装指南计算机网络知识正文安装步骤安装前环境准备sudo apt-get install libssl-devsudo apt-get install libpopt-devsudo apt-get install daemonsudo apt-get install build-essentialsudo apt-get install libssl-dev sudo apt-get install openssl sudo apt-get install libpopt-

2021-01-04 16:21:42 3936

原创 hive中日期24小时制,转换补0

背景日期字符串 2020-02-02 2:00:00 如何在2点前面补0,成为2020-02-02 02:00:00。select unix_timestamp('2020-02-02 2:02:02'), unix_timestamp('2020-02-02 02:02:02');看明白上面的查询结构就不难解决这个问题。将返回结果再调用一次from_unixtime(timestamp,format)即from_unixtime(unix_timestamp('2020-02-02 2:02

2020-12-16 17:14:02 2659

原创 Hive中load数据注意事项

如果是load到一个分区表那么语法应该是load data inpath '$yourpath' overwrite into table ${yourtable} partition(dt='2020-12-10');但是需要注意的事:load到哪个目录,哪个目录中不能放需要load的文件。而且最重要的一点,需要load的文件,必须放到一个空文件夹里,每次执行load的时候,会将这个文件夹里的数据都load走,最后将文件夹删除!...

2020-12-11 16:39:32 1406

原创 误删除mysql5.7中的root localhost用户,如何重新创建root用户

测试环境中想着要配置root的远程登录,就把localhost删除了,然后还刷新了权限,一退出,我mysqlroot就不能用了,wcao,忍不住想爆粗口,那就只能去想办法恢复呗。第一步关闭mysql服务systemctl stop mysql.service第二步开启免验证登录,进入安全模式mysqld_safe --skip-grant-tables --skip-networking &第三步进入mysql系统mysql -u root第四步创建一个root用户IN

2020-11-26 15:09:49 2562

原创 AirFlow高阶,两个启动时间不同DAG中的任务依赖关联demo

前言背景有个调度需求,查询以前历史DAG发现,有一个DAG可以作为我新调度的前置,所以想看看DAG之间task如何关联,所以有了下面的Demo。如果会科学上网,英语听力还不错的,可以移驾这里,这个大佬讲的会更到位!原理DAG A和DAG B是两个不同py文件写的,我A中一个task是我B中一个task的依赖,只有当A执行完了,我的B才能执行,那么该如何做呢,那么就应该安排一个监工的,看着A中指定task是否执行成功,执行成功那就监工就可以撤了,让B中的那个任务开始执行。Master.pyvim

2020-11-25 16:58:09 5834 4

原创 下载geoip/GeoLite2-ASN.mmdb&GeoLite2-City.mmdb

https://github.com/zhengkw/GeoLite2有资源的可以push,找了半天全是付费资源。只能借助同性交友网站了。

2020-11-24 20:53:08 4567

原创 kettle表输入传动态参数,将表输入转换放到job中,命令传参

前言写一个转换,转换中有获取系统变量和设置变量,还有表输入等其他信息。将转换放到一个job中,利用./kitchen.sh 来传递参数。这里需要设置作业里的参数和转换里的参数,为了描述下面一些特殊操作,所以特此记录!1.点击titile例如在job作业中,点击star组件,会弹出一个提示框红色框部分即为titile,双击以后就会看到设置job的页面,转换同理!2.设置作业参数点击命名参数,然后在里面编辑你传递的参数名!创建一个转换1.获取系统信息变量因为表输入里动态参数为proct2

2020-11-23 14:20:17 9518 1

转载 hive中orc小文件优化

小文件的缺陷我们就不说了,直接进入到正题.HIVE自动合并输出的小文件的主要优化手段为:set hive.merge.mapfiles = true:在只有map的作业结束时合并小文件,set hive.merge.mapredfiles = true:在Map-Reduce的任务结束时合并小文件,默认为False;set hive.merge.size.per.task = 256000000; 合并后每个文件的大小,默认256000000set hive.merge.smallfiles.av

2020-11-07 16:40:36 2253

原创 shell脚本传入字符串日期格式,对其加减运算

#!/bin/bash#1. 确定要导入数据的日期if [ -n "$1" ]then do_date=$1 #传入任意日期都可以加减! raldate=$(date -d "$1 -1days" "+%Y-%m-%d" ) #echo "$do_date" #echo "$raldate ->rd"else do_date=$(date -d 'yesterday' '+%Y%m%d')

2020-11-06 16:11:52 3251

原创 linux下用命令运行kettle中的trans并传参数

前言这个比较简单直接上命令./pan.sh -file=/home/impdatahd/kettle/kettle_transition/test01.ktr -logfile = /home/impdatahd/kettle/log/zhengkw.log -trans =test01 -param:create_time= '2020-08-01' -level=basic>>/home/impdatahd/kettle/log/test_$(date "+%Y%m%d").l

2020-10-29 11:50:47 1626 2

原创 linux下给kettle的job传递参数

前言一个job内有2个转换,一个转换获取系统命令传递的参数。一个转换是将获取的参数作为动态参数用于查询sql。addparms特别注意,使用获取字段,他的变量名会自动获取,所以大写!那么SQL里面的动态参数也必须大写!type记住选root job就行!我这里就一个job!jobdo表输入中传递动态参数!在linux中需要修改的地方我在kettle下面创建了几个目录用于放对应的文件!需要将job配置文件修改,因为我是在windows下制作的job和trans,所以他的文件路径都是win

2020-10-29 11:45:19 1287

原创 hadoop3.2.0,kafka_2.12-2.4.0 flume采集方案demo

效果根据消息中的事件时间来分目录,按照年月日分!前言公司有个数据采集需求,因为历史原因,我们公司使用的hadoop和kafka版本比较高,所以我采用了1.9.0的flume进行开发,flume内存调优这里就不讲了,有兴趣的自己去搜下。第一次使用肯定需要调优。环境准备java 1.8 flume 1.9.0 kafka_2.12-2.4.0 hadoop3.2.0flume的lib中需要将hadoop的一些依赖放进去,在hadoop3.2.0中慢慢去找hadoop-3.2.0/share/ha

2020-10-27 20:10:32 531

原创 python demo1 条件分支

def game() : temp =input(' input one num ') guess = int(temp) if guess == 8: print('you are right') else : if guess > 8: print('gt') else : print('lt') print('game over!')if __name__ ==

2020-10-26 23:58:56 627

原创 Could not find artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde in nexus-aliyun

原因mvn配置文件中指定的镜像仓库中没有对应的jar包,后来百度了很多包括google,github上看了很多解决办法以后才知道,原来这个jar是在spring插件仓库里。所以有了后面的对mvn配置文件修改。解决办法<mirror> <id>aliyunmaven</id> <mirrorOf>*</mirrorOf> <name>阿里云spring插件仓库</name> <url>http

2020-10-22 15:44:04 7952 5

原创 Flink1.11.2-scala 2.12.12 & No implicits found for parameter evidence$12

原因当前环境之下找到不到scala的包解决办法引入包import org.apache.flink.api.scala._

2020-10-22 12:56:46 446

原创 idea使用maven快速构建flink骨架项目

Scala版Flink程序编写本项目使用的Flink版本为最新版本,也就是1.11.2。现在提供maven项目的配置文件。使用Intellij IDEA创建一个Maven新项目勾选Create from archetype,然后点击Add Archetype按钮GroupId中输入org.apache.flink,ArtifactId中输入flink-quickstart-scala,Version中输入1.11.2,然后点击OK点击向右箭头,出现下拉列表,选中flink-quickstart-s

2020-10-22 12:54:23 1595

原创 flink中kafkasource并行度大于kafka分区数设置并行度问题

面试题kafka分区数5,flinksource并行度设置6。如何设置水位线才能使下游窗口触发计算!回答flink官方文档flink通过一个idel标志位标记channel,所以下游知道哪些channel是没有event的,最后去watermark就不会管那个有idel标记的空channel...

2020-10-21 19:21:25 3070 2

原创 Spark任务使用yarn-client模式运行,yarn上job出现Accepted State

前言因为公司测试集群很low,所以yarn调度默认配置不满足,本来计算出来结果是资源刚刚够,但是死活起动不了job。解决办法修改配置文件vim capacity-scheduler.xml默认0.1修改的大些,我直接改到0.5<property> <name>yarn.scheduler.capacity.maximum-am-resource-percent</name> <value>0.5</value>

2020-10-10 17:00:24 418

原创 PGSQL9.5以上新特性upsert

前言mysql用习惯了replace into后,突然间用pgsql来开发。结果没有对应语法,查了很多资料以后测试以后总结了语法。语法INSERT INTO tablename(col1,....,colN) VALUES(?,?,?) ON CONFLICT(唯一键) DO UPDATE SET col1=?,colN=?...

2020-09-11 16:25:39 379

dbeaver-ce-7.1.0-x86_64-setup.rar

免费的第三方可视化工具,但是很难下载,为了方便大家使用,给大家提供目前最新的版本windows 64x的!!! 儿童节快乐

2020-06-01

Git-2.26.2-64-bit-32bit.rar

最新的git版本控制工具。里面有32位和64位的 供用户使用!! Git-2.26.2-64-bit

2020-05-26

typora-setup-x64-0.9.86.rar

最新版本为 0.9.89,当前版本为 0.9.86,该版本算较新稳定版本。众所周知,typora是一款比较好用的md编辑软件。其实本质上是一个浏览器。所以只要会css的语法就能玩出花样来!喜欢记笔记的小伙伴可以自行下载,方便学习管理自己的资料!牛B的操作可以去各大视频平台去搜索。精彩多多哦

2020-05-26

Git-2.26.0-64-bit-windows.rar

github必要环境,代码管理仓库,大厂必备之一。可集成到idea对代码进行管理和上传到github中,也可以独立创建离线仓库!

2020-04-16

dbeaver-ce-7.0.2-x86_64-setup.exe+hive驱动

免费的第三方可视化工具,基于eclipse开发。简洁方便,支持大部分数据库的连接,比如mysql,oracle,hive,phoenix等,界面大方,对于eclipse用户相当友好,支持sql语句生成。方便开发!

2020-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除