自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (3)
  • 收藏
  • 关注

原创 pycharm pyspark 加载mysql jar包,查询mysql数据

pyspark 可以通过pip或pycharm 直接安装,在用pyspark连mysql的时候发现报错这个时候要想办法把mysql jar包加载进来,直接看代码

2022-07-28 14:53:35 1156 3

原创 flink-cdc-connector 更改 connector 名字

在使用阿里云托管flink的时候,要从sqlserver实时同步数据到hologress,准备使用flink-cdc 的sqlserver-cdc connector,结果发现阿里云flink里面有个connector 有个名字重复了,而且还不能用,纯纯的bug,只能更改 flink-cdc 的sqlserver-cdc connector的名字,于是我把名字改成了‘flink-sqlserver-cdc’。需要修改的地方如下。改完之后重新编译打包,带上依赖。找到jar包上传上去就可以使用了......

2022-06-28 16:29:06 476

原创 intellij idea运行spark local[*]的含义

val spark = SparkSession .builder .appName("StructuredNetworkWordCount") .config("spark.executor.memory", "2048m") .config("spark.driver.memory", "4096m") .config("spark.default.parallelism", "4")// .config("spark.driver.cores", "..

2022-05-10 17:52:55 1187

原创 mysql5.7安装与配置

下载wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpmyum localinstall mysql57-community-release-el7-8.noarch.rpm -yrpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022yum install mysql-community-server mysql -y#注意:mysql5.7 u

2022-03-04 15:09:01 505

原创 flink log4j2 配置日志输出

flink log4j2 配置文件

2022-03-03 12:10:39 3075

原创 flink scala 项目maven编译 (flink报错:Error: Static methods in interface require -target:jvm-1.8 已解决)

问题:在Flink scala中使用WatermarkStrategy类中的方法maven编译时抛出以下异常[ERROR] /Users/duzhixin/flink-dw/src/main/scala/come/bigdata/etl/FlinkEvent.scala:26: error: Static methods in interface require -target:jvm-1.8[INFO] val eventStream = env.fromSource(kafkaSource,

2022-02-17 15:53:39 1120

原创 hiveserver2发生gc问题解决

hiveserver2 发生gc以后导致远程jdbc连接hive会连接超时,解决办法在hive-env.sh中修改HS2Heapsize的大小在hive/bin/hive脚本里修改# to initialize logging for all services# export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Dlog4j.configurationFile=hive-log4j2.properties "if [ x$SERVICE == x"m

2021-11-19 10:56:27 1645

原创 streamx编译,streamx-console初始化启动踩坑

streamx编译先贴个官网链接,配合官网使用。steamx官网官网上有几个环境的准备,版本要对应上,我装的时候特意装了新的maven和nodejs,把原来的nodejs卸载掉,并且在bin目录搞了个软连接,不卸载原来的nodejs,会一直版本不对。编译前改一下streamx/streamx-console/streamx-console-service/src/main/resources/db/migration/V1_2__upgrade_db.sql里面的一个建表语句。ROW_FORMAT=

2021-11-17 14:34:42 1246

原创 github加速插件

在chrome或edge的插件库里搜索 github加速,安装后访问github,和在github上下东西都很快

2021-09-08 14:50:20 3733

原创 clickhouse 建kafka引擎表,通过物化视图做etl

1.kafka建表json数据格式:{"id":"10001","ts_server":"1629444027000","params":{"adid":"","click_id":"","aid":""}}set allow_experimental_map_type = 1;CREATE TABLE kafka.dadian_raw( `id` Nullable(String) , `ts_server` Nullable(String) , `

2021-09-02 15:07:07 1501 2

原创 flink-connector-jdbc.jar加入clickhouse驱动支持,并重新编译

1.在dialect package里面新加一个ClickhouseDialect,这个类可以根据MySQLDialect改/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * rega

2021-07-09 14:36:58 2104 1

原创 flink1.13 table api 查询hive数据,及腾讯云cos存储

前言在调试flink table api 查询 hive数据的时候,真的是遇到很多坑,特别是要hive存储的数据是在腾讯云的cos上,而且我是跨集群查询数据,要解决各种依赖和环境问题,下面的代码和pom.xml 已经调试成功,在本地和集群 on yarn都可以运行,本地的时候需要在idea里面加args为dev,集群 on yarn不用加。代码package com.bigdata.etlimport org.apache.flink.table.api.{EnvironmentSettings,

2021-06-21 15:03:47 1348

原创 flink1.13.0 部署任务 on yarn 及传参

1.flink standalone刚开始测试的时候可以用这种模式# we assume to be in the root directory of the unzipped Flink distribution# (1) Start Cluster$ ./bin/start-cluster.sh# (2) You can now access the Flink Web Interface on http://localhost:8081# (3) Submit example job

2021-05-11 17:54:16 2269

原创 superset查询超时 query timeout nginx 504

最近搞superset 发现查询的时候超过1分钟就timeout,nginx 504,还以为是config.py里面的配置的问题SUPERSET_WEBSERVER_TIMEOUT = 60 * 2改过之后没用,最后发现用ip 加 port没问题,用域名访问就有问题,所以还是要改nginx里面的配置。fastcgi_connect_timeout 300s;fastcgi_send_timeout 300s;fastcgi_read_timeout 300s;改完之后就解决了...

2021-04-23 14:04:11 1577

原创 superset1.0.1 连hive

urihive://username@ip:port/default?auth=NONEdriver安装下面三条命令可以都试试,最终pyhive=0.6.3pip install -U pyhivepip install pyhive[presto]pip install pythrifthiveapi

2021-04-19 17:09:53 362

原创 flink1.12 flink-sql client 调试

###flink1.12 下载安装 ###flink-sql把flink-connector-kafka_2.11-1.12.2.jar,flink-json-1.12.2.jar,flink-sql-connector-kafka_2.11-1.12.0.jar,jackson-core-2.9.5.jar,jackson-databind-2.9.5.jar放到$FLINK_HOME/lib里面,不放会class not foundcd $FLINK_HOME#启动yarn session.

2021-04-16 14:47:28 984

原创 flinkx 部署,on yarn模式运行

1.flinkx部署参考官方安装文档,但是会有一些坑wget https://github.com/DTStack/flinkx/blob/1.10_release/docs/quickstart.md2.FlinkX版本需要与Flink版本保持一致,最好小版本也保持一致FlinkX分支Flink版本1.8_releaseFlink1.8.31.10_releaseFlink1.10.11.11_releaseFlink1.11.3不对应在standal

2021-04-02 14:21:09 1390 2

原创 superset安装,添加presto,clickhouse驱动

目录1.pyhont3.6以上版本安装(略过)2.安装python依赖模块3.创建python虚拟环境4.安装和初始化supersetCreate an admin user (you will be prompted to set a username, first and last name before setting a password)Load some data to play withCreate default roles and permissionsTo start a develop

2021-03-18 18:16:29 1071

原创 superset sqllab查询文档

目录1.点击sqllab里面的SQL Editor2.sql Editor 介绍3.在sql编辑框里编写sql,点击run 执行sql语句,在results里查看结果1.点击sqllab里面的SQL Editor2.sql Editor 介绍3.在sql编辑框里编写sql,点击run 执行sql语句,在results里查看结果1.点击sqllab里面的SQL Editor2.sql Editor 介绍3.在sql编辑框里编写sql,点击run 执行sql语句,在results里查看结果1.点击sql

2021-03-18 16:59:21 905 2

原创 hive on spark 与 hive on tez共存,tez-ui配置

1.设置tez-ui需要先安装Tomcat1.找到war包因为我安装的是bin所以在安装包中就有tez-ui-0.9.0.war自己编译的话也有生成,在这里不做过多赘述。#2.将tez-ui部署在tomcat#在webapps下创建tez-ui目录mkdir /usr/local/apache/apache-tomcat-8.5.31/webapps/tez-ui#进入文件cd /usr/local/apache/apache-tomcat-8.5.31/webapps/tez-ui

2021-03-08 11:36:30 819

原创 flink1.12安装并配置ha

1.下载安装包,解压https://flink.apache.org/downloads.htmltar zxvf *.tax.gzscala下载 解压 配置 vim /etc/profilehttps://www.scala-lang.org/download/export SCALA_HOME=/usr/local/scala-2.12.13PATH=SCALAHOME/bin:SCALA_HOME/bin:SCALAH​OME/bin:JAVA_HOME/bin:HADOOPH

2021-03-04 11:50:46 905 2

原创 atlas 1.2 编译,安装和配置集成hive(依赖外部hbase es)

1.下载 sourcehttp://atlas.apache.org/Downloads.htmlwgethttps://mirrors.tuna.tsinghua.edu.cn/apache/atlas/1.2.0/apache-atlas-1.2.0-sources.tar.gz2.编译安装maven,修改maven setting.xml,添加aliyun 镜像配置阿里云镜像,在下图位置(<mirrors>内配置如下代码),保存退出<mirror&gt..

2021-02-26 18:20:17 934

原创 Map排序及HashMap按键排序和按值排序

一、简单介绍Map在讲解Map排序之前,我们先来稍微了解下map。map是键值对的集合接口,它的实现类主要包括:HashMap,TreeMap,Hashtable以及LinkedHashMap等。其中这四者的区别如下(简单介绍):HashMap:我们最常用的Map,它根据key的HashCode 值来存储数据,根据key可以直接获取它的Value,同时它具有很快的访问速度。HashMap最多只允许一

2017-07-11 14:08:19 692

原创 堆(heap),栈(stack)和常量池、方法区

栈: 存放一些基本类型的变量和对象和数组的引用变量。 由系统控制 ,一级缓存,调用完毕立即释放。单线程共享。堆:存放所有new出来的对象 。存放数组,二级缓存,不立即释放 。多线程共享常量池:存放基本类型常量和字符串常量。 String Pool Java6的时候在栈中, java7后放入堆中 。详见 Java常量池理解与总结 http://www.jianshu.com/p/c7f47de

2017-07-11 10:33:15 309

原创 cm cdh5 hadoop安装

今日按照官方文档,装了一下cdh5 hadoop ,分享一下经验及用到的命令cm 官方中文版地址 http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/search_solrctl_ref.html cdh 安装包 http://archive-primary.cloudera.com/c

2017-07-10 11:04:03 582

原创 mysql 存储过程和函数的区别

1.函数必须指定返回值,且参数默认为IN类型。 2.存储过程没返回值,参数可以是 IN,OUT,IN OUT类型,有的人可能会理解成OUT 也算是返回值。 3.调用方式:函数 select my_fun() ;过程 call my_pro( ) ;DEMO DELIMITER $$ DROP FUNCTION IF EXISTS my_fun$$ CREATE

2017-07-10 10:47:25 287

转载 一文读懂大数据平台——写给大数据开发初学者的话!

经常有初学者会问,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高……首先,如果你确定了想往这个方面发展,先考虑自己的过去从业经历、专业、兴趣是什么。计算机专业——操作系统、硬件、网络、服务器?软件专业——软件开发、编程、写代码?还是数学、统计学专业——对数据和数字特别感兴趣?

2017-07-10 10:19:56 466 2

原创 离线计算,实时计算和流式计算的概念区分

离线计算:这个大家都能理解,今天早上一点,把昨天累积的日志,计算出所需结果。一般累积时间较长,计算量级较大,计算时间也较长。实时计算:与离线计算相比,运行时间短,(人可以等待的时间)。(冗余+高性能部件,及算法的优化),计算量级相对较小。强调计算过程的时间要短,即所查当下给出结果。流式计算:与实时计算相比,时效稍微慢些,实时计算是以主动查询来触发,流失计算是以事务发生及结果变更为触发。强调不累积日

2017-07-10 10:04:33 4850 1

原创 这个命令你肯定会用到,find之 -exec/ |xargs

刚来到新公司,接手新的项目,连到新的主机,要面临一堆shell脚本去看,熟悉项目都不知道从何下手,来个新需求也不知道从哪里找,这时就需要用到接下来我说的这个命令,让你快速定位,精确查找。 1. find . -name "*.sh" -exec grep -in "ti_user_querynum" {} \;. 指定当前目录 ,也可以写别的目录或绝对路径,“*.sh”正则匹配当前目录下的脚本的名

2017-07-10 09:21:00 228

原创 mapreduce过程解析及任务调度问题

nput split 分片依据block大小,一般64m,一个分片就是一个mapmapcombiner map端的合并shuffle 输出到内存 到达阈值 spill到磁盘 partitioner reduece的输入,一个reduce对应一个partitioner,排序 合并 复制Reduce

2017-07-07 14:44:28 2170

原创 HashMap实现原理-数据解构与源码分析

总结一下,HashMap的数据解构就是散列数组加链表,数组的下标是由key的hashcode和数组长度位运算而来,这样保证下标不越界,且每一个容器上的entry数量均匀分布,以达到更高的查询效率。当hash冲突时,链表的插入遵循永远插在第一位的原则,原来的往后挤

2017-07-06 15:02:33 219

原创 String中的equals()方法和==解析

首先,String有两种使用方式,即作为对象来使用和基本类型来使用。String s1 = new String(“Hello”); //作对象时,不会验证是否有相同字符串(即“Hello”),都会在堆中开辟空间存放new出来的对象,在栈中开辟一空间存放对象在堆中的地址,指向此对象。String s2=”hi”;//作基本类型,声明时,会现在String Pool里查找有没有这个字符串,如果有直接引用

2017-07-05 15:15:36 674

flink-connector-clickhouse-1.12.0.jar

flink 以connector形式连接clickhouse,资源稀缺,阿里云已经找不到了 id Int, age Int, sex Int, create_date Date ) WITH ( 'connector' = 'clickhouse', 'url' = 'jdbc:clickhouse://10.1.3.176:8123/test', 'table-name' = 'tb_user', 'username' = '', 'password' = '', 'format' = 'json' )

2022-02-15

atlas hive hook 编译依赖 apache-atlas-1.2.0-hive-hook.tar.gz

atlas hive hook 资源包

2021-02-26

atlas编译安装包 apache-atlas-1.2.0-server.tar.gz

atlas 编译安装包

2021-02-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除