杜之心-CSDN博客

原创 pycharm pyspark 加载mysql jar包，查询mysql数据

pyspark 可以通过pip或pycharm 直接安装，在用pyspark连mysql的时候发现报错这个时候要想办法把mysql jar包加载进来，直接看代码

2022-07-28 14:53:35 1268 2

原创 flink-cdc-connector 更改 connector 名字

在使用阿里云托管flink的时候，要从sqlserver实时同步数据到hologress，准备使用flink-cdc 的sqlserver-cdc connector，结果发现阿里云flink里面有个connector 有个名字重复了，而且还不能用，纯纯的bug，只能更改 flink-cdc 的sqlserver-cdc connector的名字，于是我把名字改成了‘flink-sqlserver-cdc’。需要修改的地方如下。改完之后重新编译打包，带上依赖。找到jar包上传上去就可以使用了......

2022-06-28 16:29:06 533

原创 intellij idea运行spark local[*]的含义

val spark = SparkSession .builder .appName("StructuredNetworkWordCount") .config("spark.executor.memory", "2048m") .config("spark.driver.memory", "4096m") .config("spark.default.parallelism", "4")// .config("spark.driver.cores", "..

2022-05-10 17:52:55 1259

原创 mysql5.7安装与配置

下载wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpmyum localinstall mysql57-community-release-el7-8.noarch.rpm -yrpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022yum install mysql-community-server mysql -y#注意：mysql5.7 u

2022-03-04 15:09:01 543

原创 flink log4j2 配置日志输出

flink log4j2 配置文件

2022-03-03 12:10:39 3240

原创 flink scala 项目maven编译（flink报错：Error: Static methods in interface require -target:jvm-1.8 已解决）

问题：在Flink scala中使用WatermarkStrategy类中的方法maven编译时抛出以下异常[ERROR] /Users/duzhixin/flink-dw/src/main/scala/come/bigdata/etl/FlinkEvent.scala:26: error: Static methods in interface require -target:jvm-1.8[INFO] val eventStream = env.fromSource(kafkaSource,

2022-02-17 15:53:39 1180

原创 hiveserver2发生gc问题解决

hiveserver2 发生gc以后导致远程jdbc连接hive会连接超时，解决办法在hive-env.sh中修改HS2Heapsize的大小在hive/bin/hive脚本里修改# to initialize logging for all services# export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Dlog4j.configurationFile=hive-log4j2.properties "if [ x$SERVICE == x"m

2021-11-19 10:56:27 1742

原创 streamx编译，streamx-console初始化启动踩坑

streamx编译先贴个官网链接，配合官网使用。steamx官网官网上有几个环境的准备，版本要对应上，我装的时候特意装了新的maven和nodejs，把原来的nodejs卸载掉，并且在bin目录搞了个软连接，不卸载原来的nodejs，会一直版本不对。编译前改一下streamx/streamx-console/streamx-console-service/src/main/resources/db/migration/V1_2__upgrade_db.sql里面的一个建表语句。ROW_FORMAT=

2021-11-17 14:34:42 1281 1

原创 github加速插件

在chrome或edge的插件库里搜索 github加速，安装后访问github，和在github上下东西都很快

2021-09-08 14:50:20 3835

原创 clickhouse 建kafka引擎表，通过物化视图做etl

1.kafka建表json数据格式：{"id":"10001","ts_server":"1629444027000","params":{"adid":"","click_id":"","aid":""}}set allow_experimental_map_type = 1;CREATE TABLE kafka.dadian_raw( `id` Nullable(String) , `ts_server` Nullable(String) , `

2021-09-02 15:07:07 1597 2

原创 flink-connector-jdbc.jar加入clickhouse驱动支持，并重新编译

1.在dialect package里面新加一个ClickhouseDialect，这个类可以根据MySQLDialect改/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * rega

2021-07-09 14:36:58 2247 2

原创 flink1.13 table api 查询hive数据，及腾讯云cos存储

前言在调试flink table api 查询 hive数据的时候，真的是遇到很多坑，特别是要hive存储的数据是在腾讯云的cos上，而且我是跨集群查询数据，要解决各种依赖和环境问题，下面的代码和pom.xml 已经调试成功，在本地和集群 on yarn都可以运行，本地的时候需要在idea里面加args为dev，集群 on yarn不用加。代码package com.bigdata.etlimport org.apache.flink.table.api.{EnvironmentSettings,

2021-06-21 15:03:47 1418

原创 flink1.13.0 部署任务 on yarn 及传参

1.flink standalone刚开始测试的时候可以用这种模式# we assume to be in the root directory of the unzipped Flink distribution# (1) Start Cluster$ ./bin/start-cluster.sh# (2) You can now access the Flink Web Interface on http://localhost:8081# (3) Submit example job

2021-05-11 17:54:16 2341

原创 superset查询超时 query timeout nginx 504

最近搞superset 发现查询的时候超过1分钟就timeout，nginx 504，还以为是config.py里面的配置的问题SUPERSET_WEBSERVER_TIMEOUT = 60 * 2改过之后没用，最后发现用ip 加 port没问题，用域名访问就有问题，所以还是要改nginx里面的配置。fastcgi_connect_timeout 300s;fastcgi_send_timeout 300s;fastcgi_read_timeout 300s;改完之后就解决了...

2021-04-23 14:04:11 1743

原创 superset1.0.1 连hive

urihive://username@ip:port/default?auth=NONEdriver安装下面三条命令可以都试试，最终pyhive=0.6.3pip install -U pyhivepip install pyhive[presto]pip install pythrifthiveapi

2021-04-19 17:09:53 412

原创 flink1.12 flink-sql client 调试

###flink1.12 下载安装 ###flink-sql把flink-connector-kafka_2.11-1.12.2.jar，flink-json-1.12.2.jar，flink-sql-connector-kafka_2.11-1.12.0.jar，jackson-core-2.9.5.jar，jackson-databind-2.9.5.jar放到$FLINK_HOME/lib里面，不放会class not foundcd $FLINK_HOME#启动yarn session.

2021-04-16 14:47:28 1048

原创 flinkx 部署，on yarn模式运行

1.flinkx部署参考官方安装文档，但是会有一些坑wget https://github.com/DTStack/flinkx/blob/1.10_release/docs/quickstart.md2.FlinkX版本需要与Flink版本保持一致，最好小版本也保持一致FlinkX分支Flink版本1.8_releaseFlink1.8.31.10_releaseFlink1.10.11.11_releaseFlink1.11.3不对应在standal

2021-04-02 14:21:09 1463 2

原创 superset安装，添加presto，clickhouse驱动

目录1.pyhont3.6以上版本安装（略过）2.安装python依赖模块3.创建python虚拟环境4.安装和初始化supersetCreate an admin user (you will be prompted to set a username, first and last name before setting a password)Load some data to play withCreate default roles and permissionsTo start a develop

2021-03-18 18:16:29 1164

原创 superset sqllab查询文档

目录1.点击sqllab里面的SQL Editor2.sql Editor 介绍3.在sql编辑框里编写sql，点击run 执行sql语句，在results里查看结果1.点击sqllab里面的SQL Editor2.sql Editor 介绍3.在sql编辑框里编写sql，点击run 执行sql语句，在results里查看结果1.点击sqllab里面的SQL Editor2.sql Editor 介绍3.在sql编辑框里编写sql，点击run 执行sql语句，在results里查看结果1.点击sql

2021-03-18 16:59:21 994 2

原创 hive on spark 与 hive on tez共存，tez-ui配置

1.设置tez-ui需要先安装Tomcat1.找到war包因为我安装的是bin所以在安装包中就有tez-ui-0.9.0.war自己编译的话也有生成，在这里不做过多赘述。#2.将tez-ui部署在tomcat#在webapps下创建tez-ui目录mkdir /usr/local/apache/apache-tomcat-8.5.31/webapps/tez-ui#进入文件cd /usr/local/apache/apache-tomcat-8.5.31/webapps/tez-ui

2021-03-08 11:36:30 884

原创 flink1.12安装并配置ha

1.下载安装包，解压https://flink.apache.org/downloads.htmltar zxvf *.tax.gzscala下载解压配置 vim /etc/profilehttps://www.scala-lang.org/download/export SCALA_HOME=/usr/local/scala-2.12.13PATH=SCALAHOME/bin:SCALA_HOME/bin:SCALAHOME/bin:JAVA_HOME/bin:HADOOPH

2021-03-04 11:50:46 955 2

原创 atlas 1.2 编译，安装和配置集成hive（依赖外部hbase es）

1.下载 sourcehttp://atlas.apache.org/Downloads.htmlwgethttps://mirrors.tuna.tsinghua.edu.cn/apache/atlas/1.2.0/apache-atlas-1.2.0-sources.tar.gz2.编译安装maven，修改maven setting.xml,添加aliyun 镜像配置阿里云镜像，在下图位置（<mirrors>内配置如下代码），保存退出<mirror&gt..

2021-02-26 18:20:17 983

原创 Map排序及HashMap按键排序和按值排序

一、简单介绍Map在讲解Map排序之前，我们先来稍微了解下map。map是键值对的集合接口，它的实现类主要包括：HashMap,TreeMap,Hashtable以及LinkedHashMap等。其中这四者的区别如下（简单介绍）：HashMap：我们最常用的Map，它根据key的HashCode 值来存储数据,根据key可以直接获取它的Value，同时它具有很快的访问速度。HashMap最多只允许一

2017-07-11 14:08:19 734

原创堆（heap），栈（stack）和常量池、方法区

栈：存放一些基本类型的变量和对象和数组的引用变量。由系统控制，一级缓存，调用完毕立即释放。单线程共享。堆：存放所有new出来的对象。存放数组，二级缓存，不立即释放。多线程共享常量池：存放基本类型常量和字符串常量。 String Pool Java6的时候在栈中， java7后放入堆中。详见 Java常量池理解与总结 http://www.jianshu.com/p/c7f47de

2017-07-11 10:33:15 351

原创 cm cdh5 hadoop安装

今日按照官方文档，装了一下cdh5 hadoop ，分享一下经验及用到的命令cm 官方中文版地址 http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/search_solrctl_ref.html cdh 安装包 http://archive-primary.cloudera.com/c

2017-07-10 11:04:03 611

原创 mysql 存储过程和函数的区别

1.函数必须指定返回值，且参数默认为IN类型。 2.存储过程没返回值，参数可以是 IN,OUT,IN OUT类型，有的人可能会理解成OUT 也算是返回值。 3.调用方式：函数 select my_fun() ;过程 call my_pro( ) ;DEMO DELIMITER $$ DROP FUNCTION IF EXISTS my_fun$$ CREATE

2017-07-10 10:47:25 317

转载一文读懂大数据平台——写给大数据开发初学者的话!

经常有初学者会问，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高……首先，如果你确定了想往这个方面发展，先考虑自己的过去从业经历、专业、兴趣是什么。计算机专业——操作系统、硬件、网络、服务器？软件专业——软件开发、编程、写代码？还是数学、统计学专业——对数据和数字特别感兴趣？

2017-07-10 10:19:56 503 2

原创离线计算,实时计算和流式计算的概念区分

离线计算：这个大家都能理解，今天早上一点，把昨天累积的日志，计算出所需结果。一般累积时间较长，计算量级较大，计算时间也较长。实时计算：与离线计算相比，运行时间短，（人可以等待的时间）。（冗余+高性能部件，及算法的优化），计算量级相对较小。强调计算过程的时间要短，即所查当下给出结果。流式计算：与实时计算相比，时效稍微慢些，实时计算是以主动查询来触发，流失计算是以事务发生及结果变更为触发。强调不累积日

2017-07-10 10:04:33 4999

原创这个命令你肯定会用到，find之 -exec/ |xargs

刚来到新公司，接手新的项目，连到新的主机，要面临一堆shell脚本去看，熟悉项目都不知道从何下手，来个新需求也不知道从哪里找，这时就需要用到接下来我说的这个命令，让你快速定位，精确查找。 1. find . -name "*.sh" -exec grep -in "ti_user_querynum" {} \;. 指定当前目录，也可以写别的目录或绝对路径，“*.sh”正则匹配当前目录下的脚本的名

2017-07-10 09:21:00 255

原创 mapreduce过程解析及任务调度问题

nput split 分片依据block大小，一般64m，一个分片就是一个mapmapcombiner map端的合并shuffle 输出到内存到达阈值 spill到磁盘 partitioner reduece的输入，一个reduce对应一个partitioner，排序合并复制Reduce

2017-07-07 14:44:28 2253

原创 HashMap实现原理-数据解构与源码分析

总结一下，HashMap的数据解构就是散列数组加链表，数组的下标是由key的hashcode和数组长度位运算而来，这样保证下标不越界，且每一个容器上的entry数量均匀分布，以达到更高的查询效率。当hash冲突时，链表的插入遵循永远插在第一位的原则，原来的往后挤

2017-07-06 15:02:33 241

原创 String中的equals（）方法和==解析

首先，String有两种使用方式，即作为对象来使用和基本类型来使用。String s1 = new String(“Hello”); //作对象时，不会验证是否有相同字符串（即“Hello”），都会在堆中开辟空间存放new出来的对象，在栈中开辟一空间存放对象在堆中的地址，指向此对象。String s2=”hi”;//作基本类型，声明时，会现在String Pool里查找有没有这个字符串，如果有直接引用

2017-07-05 15:15:36 729

qq_27474277的博客