微风凉-CSDN博客

原创安装greenplumn步骤

安装greenplumn步骤（注意：一到十步全部在六台机器都要操作，都是root用户来操作的）一、挂载磁盘分区1、fdisk -l 或者用 lsblk -f2、分区fdisk /dev/sdb3、格式化mkfs.xfs /dev/sdb14、创建挂载目录mkdir /data5、设置可以自动挂载（永久挂载，当你重启Linux之后，仍然可以挂载）/dev/sda1 /data xfs rw,noatime,inode64,allocsize=16m 1 16、执行如下命令生效：mo

2020-11-04 15:22:59 980 1

原创查看pg数据库的表名字段详细描述信息语句

select t1.schemaname,t1.tablename,t1.tableowner,t3.attname,t3.attnum,format_type(t3.atttypid,t3.atttypmod),t5.descriptionfrom pg_tables t1left join pg_namespace t4on t1.schemaname=t4.nspnameleft join PG_class t2on t1.tablename=t2.relnameand t4.oid=t2

2020-10-23 20:51:09 2630

原创 kafka的partitions的offset值写入mysql

主类：package com.kafka.sourcesimport java.sql.{Connection, ResultSet, Statement}import java.utilimport java.langimport java.util.Propertiesimport com.Test.{MysqlSourceDB, SourceDB}import com.Utils.{DBConnManager}import com.kafka.service.KafkaConsum

2020-08-03 22:49:19 402

原创 Elasticsearch Configuration

======================== Elasticsearch Configuration =========================NOTE: Elasticsearch comes with reasonable defaults for most settings.Before you set out to tweak and tune the configuration, make sure youunderstand what are you trying to ac

2020-07-26 11:42:51 770

原创 kafka-lead 的选举过程

1.了解控制器的启动顺序在kafka集群中，每个代理节点（Broker）在启动都会实例化一个KafkaController类。该类会执行一系列业务逻辑，选举出主题分区的leader节点。（1）第一个启动的代理节点，会在Zookeeper系统里面创建一个临时节点/Controller,并写入该节点的注册信息，使该节点成为控制器。（2）其他代理节点陆续启动时，也会尝试在zookeeper系统...

2020-02-15 16:34:18 828 1

原创 spark 序列化对象时的问题-Serializable

package com.serimport java.net.InetAddressimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}// 如果sobject serTest { def main(args: Array[String]): Unit = { /...

2020-01-08 21:43:30 813

原创 spark 分区间排序求TopN问题

scala 利用Treemap来进行排序求TOPN的方法： def sortedByTeaAndCount(itm:Iterator[((String, String), Int)], topN:Int)={ val hashMap:mutable.Map[String,Int] = new mutable.HashMap[String, Int]() implicit val ...

2019-12-27 15:29:15 314

原创 spark-shuffle

spark-shuffle我们来先说一下shuffle，shuffle就是数据从map task到reduce task的过程。shuffle过程包括两部分：shuffle write shuffle read，shuffle write发生在数据的准备阶段也就是map task，shuffle readf发生数据的拷贝阶段也就是reduce task阶段，shuffle的性能好坏影响...

2019-12-14 00:34:35 191

原创 kafkaOffsetToMysql

package spark.utilimport kafka.common.TopicAndPartitionimport org.apache.spark.streaming.kafka.OffsetRangeimport scalikejdbc.{DB, SQL}object KafkaMysqlOffsetManager { // 获取offset def getOf...

2019-12-01 01:17:14 198

原创 spark Udaf-自定义函数

/**声明用户自定义聚合函数（弱类型）继承UserDefinedAggregateFunction实现方法*/package com.scalademoimport org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.expre...

2019-11-28 16:30:44 232

原创 cpu使用率过高来定位代码问题

jps -lorps -ef | grep java | grep -v grep 找到自己的代码的进程ID定位到具体的线程或者代码ps -mp 3929 -o THREAD,tid,time需要的线程的ID 转换为16进制的格式printf "%x\n" 有问题的线程IDjstack 进程id | grep tid -A60 来确定具体代码的问题jstack...

2019-11-22 18:10:12 380

原创网络IO linux ifstat

网络iolinux 使用ifstat查看网络使用情况首先安装ifstatwget http://distfiles.macports.org/ifstat/ifstat-1.1.tar.gztar xzvf ifstat-1.1.tar.gzcd ifstat-1.1./configuremakesudo make install#ifstateth0KB/s in KB...

2019-11-22 17:26:33 152

原创磁盘IO Linux iostat

磁盘IO iostat命令命令详解Linux系统中的iostat是I/O statistics（输入/输出统计）的缩写，iostat工具将对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况，同时也会汇报出CPU使用情况。同vmstat一样，iostat也有一个弱点，就是它不能对某个进程进行深入分析，仅对系统的整体情况进行分析。命令参数-c 显示CPU使用情况-d 显...

2019-11-22 17:23:44 137

原创 linux 硬盘df

硬盘 df命令参数介绍df [选项]… [FILE]…文件-a, --all 包含所有的具有 0 Blocks 的文件系统文件–block-size={SIZE} 使用 {SIZE} 大小的 Blocks文件-h, --human-readable 使用人类可读的格式(预设值是不加这个选项的…)文件-H, --si 很像 -h, 但是用 1000 为单位而不是用 1024文件-i...

2019-11-22 17:19:16 92

原创 linux 内存 free

内存 free命令　　free命令可以显示当前系统未使用的和已使用的内存数目，还可以显示被内核使用的内存缓冲区。下面是对这些数值的解释：　　total:总计物理内存的大小。　　used:已使用多大。　　free:可用有多少。　　Shared:多个进程共享的内存总额。　　Buffers/cached:磁盘缓存的大小。第三行(-/+ buffers/cached):　　used:已...

2019-11-22 17:17:27 236

原创 linux vmstat命令查看CPU

vmstat 主要查看cpu的linux 命令后，CPUvmstat(Virtual Memory Statistics 虚拟内存统计) 命令用来显示Linux系统虚拟内存状态，也可以报告关于进程、内存、I/O等系统整体运行状态。参数介绍-a：显示活跃和非活跃内存-f：显示从系统启动至今的fork数量。-m：显示slabinfo-n：只在开始时显示一次各字段名称。-s：显示内存...

2019-11-22 17:13:32 947

原创 linux 查看整机命令 top

top命令　　top命令是Linux下常用的性能分析工具，能够实时显示系统中各个进程的资源占用状况，类似于Windows的任务管理器。运行 top 命令后，CPU 使用状态会以全屏的方式显示，并且会处在对话的模式 – 用基于 top 的命令，可以控制显示方式等等。退出 top 的命令为 q （在 top 运行中敲 q 键一次）。top 运行中可以通过 top 的内部命令对进程的显示方式进行控...

2019-11-22 17:04:53 365

原创 JVM 垃圾回收详细总结

对于JVM垃圾的定义:就是JVM中不用的内存空间就是内存垃圾需要收回的，识别垃圾的方法有两种计数引用和枚举节点可达性分析，计数引用就是给对象添加一个计数器，对象被引用一下，计数器就会加一，当对象引用失败时，计数器就会减一，当对象的计数值为0 时，对象就被收回，该方法的缺点是处理不了对象循环引用。第二种方法是以gc ROOT 为根节点，遍历对象图，当对象能遍历到，就是一个可达性对象，当对象不能...

2019-11-22 15:38:21 240

原创 java 线程池的回顾

为什么使用线程池和线程池的优势？：线程池做的工作主要是控制运行的线程的数量，处理过程中将任务放入队列，然后在线程创建后启动这些任务，如果线程数量超过了最大数量，超出数量的线程排队等候，等其他线程执行完毕，再从去列中取出任务来执行。他的只要特点为：线程的复用；控制最大的并发数；管理线程第一：降低资源消耗。通过复用利用已创建的线程，降低线程和销毁造成的消耗。第二：提高响应速度。当任...

2019-11-20 16:26:18 144

原创 spark task not Serializable

今天用scala代码写spark程序遇到一个这样的一个问题 task not Serializable，进过查阅资料，涨知识了！自己的举例的代码：1．创建一个类class MatchString(s:String){ //过滤出包含字符串的数据 def isMatch(s: String): Boolean = { s.contains(query) } //过滤出...

2019-11-12 12:34:44 273

原创 hive -- hive.auto.convert.join优化

对于这参数一定要使用的谨慎一些：参数详细：具体实验：hive> show databases;OKdefaultTime taken: 0.993 seconds, Fetched: 3 row(s)hive> create database test;OKTime taken: 1.192 secondshive> use test;OKTime t...

2019-11-06 11:53:47 11464

原创 hashmap原理详解

Hashmap 的底层：数组+链表（jdk7之前）数组+链表+红黑树（jdk 8）以jdk7为例说明：HashMap map=new HashMap();在实例化以后，底层创建了长度是16的一维数组Entry[] table……已经执行过多次put……map.put(key1,value1):首先计算key1所在类的hashCode()计算key1哈希值，此哈希值经过某种算法...

2019-10-27 16:27:54 141

原创 Volatile 轻量级的同步机制的知识点回顾

Volatile 轻量级的同步机制:（三特点）1.保证可见性2.不保证原子性3.禁止指令重排回顾可见性JVM 的运行实体是线程，1.每个线程的创建时都是jvm都会为其创建一个工作内存（有些地方称为栈空间）工作内存是每个线程的私有数据区域，而java内存模型中规定所有的变量都存储在主内存，主内存是内存共享区域，所有线程都可以访问，但是线程对变量的操作必须是在工作内存中进行的，2.首先要将变...

2019-10-27 01:00:46 153

原创 hivesql(4)

有一个5000万的用户文件(user_id，name，age)，一个2亿记录的用户看电影的记录文件(user_id，url)，根据年龄段观看电影的次数进行排序？先求出每个人看了几次电影,t1然后t1和user表join，拼接age字段 t2表划分年龄段，0-20，20-40，40-60，60–按年龄段分组，按照次数排序建表create table forth_user(user_id st...

2019-10-18 13:55:39 648

原创 sql

已知一个表STG.ORDER，有如下字段:Date，Order_id，User_id，amount。请给出sql进行统计:数据样例:2017-01-01,10029028,1000003251,33.57。1）给出 2017年每个月的订单数、用户数、总成交金额。2）给出2017年11月的新客数(指在11月才有第一笔订单)建表语句create table second_order(`Date...

2019-10-18 00:06:55 475

原创 sqoop com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failureq

hadoop@hadoop-virtual-machine:/usr/local/sqoop$ bin/sqoop list-databases --connect jdbc:mysql://hadoop-virtual-machine:3306/ --username root --password XXXXXX报错误的是：19/10/16 16:07:04 ERROR manager.C...

2019-10-16 16:55:45 657

原创回顾hadoop以及hadoopHA的fsimage和editlog的知识点

hadoop1.x中的namenode和secondary namenode在hadoop1.x中，hdfs集群的namenode存在单点故障，一旦namenode出现故障，整个集群将不可用secondary namenode并没有提供故障转移的能力，集群的可用性受到影响secondary namenode只是周期性的把edit logs文件更新到fsimage，namenode在重启的时候...

2019-10-14 14:23:10 663

原创 azkaban-3.72.0编译与安装

全场动作必须整齐划一，来，左边跟我一起画个龙，右边画一道彩虹！Azkaban官方提供了源码，安装需要编译。开始编译：下载之后再进行编译。1、azkaban：https://github.com/azkaban/azkaban/archive/3.72.0.tar.gz创建一个文件夹：mkdir /opt/modulemkdir /opt/software切换到该目录下：cd /...

2019-10-12 18:09:38 607

原创 flink处理获取kafka中的数据以及redis中的数据

所需要的pom.xml(根据自己版本来进行修改)<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.7.2</flink.version> <slf...

2019-10-10 17:39:41 1365

原创 flink从redis中获取数据作为source源

redis中的数据：需要实现SourceFunction接口，指定泛型<>,也就是获取redis里的数据，处理完后的数据输入的数据类型这里我们需要的是（我们需要返回kv对的，就要考虑HashMap）Java代码：package ryx.source;import org.apache.flink.streaming.api.functions.source.Source...

2019-10-10 16:56:16 7493 4

原创 java.lang.NoClassDefFoundError: org.apache.hadoop.fs.FileSystem

这是很低的错误：但是我犯了！大多数情况下就是，本地的电脑上没有安装hadoop，以及没有配置hadoop的环境变量！下载hadoop版本：https://archive.apache.org/dist/hadoop/common/直接解压，配置环境变量。然后别忘了在hadoop目录下面的bin再添加俩个文件，对应大版本的hadoop.dll和winutils.exe不然报错：...

2019-09-27 17:54:26 982

原创 flink 广播变量

这是广播变量的学习： package batch; import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.common.functions.RichMapFunction; import org.apache.flink.api.java....

2019-09-23 09:48:56 839

原创 flink sink to redis

不多bb!先看RedisCommand设置数据结构类型时和redis结构对应关系。Data TypeRedis Command [Sink]HASHHSETLISTRPUSH, LPUSHSETSADDPUBSUBPUBLISHSTRINGSETHYPER_LOG_LOGPFADDSORTED_SETZADDSORTE...

2019-09-19 17:57:58 444

原创 flink 自定义Partition分区

自己定义一个分区类，需要自己实现一个Partitione接口！（泛型最好写上）import org.apache.flink.api.common.functions.Partitionerpublic class MyPartition implements Partitioner<Long> { public int partition(Long key, int n...

2019-09-19 17:40:21 6795 5

原创 flink 自定义多并行度的source源

自己定义一个多并行度的source，需要自己实现一个ParallelSourceFunction接口import org.apache.flink.streaming.api.functions.source.ParallelSourceFunction; /** * interface ParallelSourceFunction<OUT> extends So...

2019-09-19 17:35:22 4613 2

原创 flink 自定义单并行度的source源

java代码实现案例自己定义一个单并行度的source，需要自己实现一个SourceFunction接口！import org.apache.flink.streaming.api.functions.source.SourceFunction; /** * 自己定义一个单并行度的source * 需要自己实现一个SourceFunction接口 * */publi...

2019-09-19 17:31:19 1297

转载 java clone 的用法：

clone 的用法：java.lang.Object类的clone()方法为protected类型，不可直接调用，需要先对要克隆的类进行下列操作：首先被克隆的类实现Cloneable接口；然后在该类中覆盖clone()方法，并且在该clone()方法中调用super.clone()；这样，super.clone()便可以调用java.lang.Object类的clone()方法。应用实例：...

2019-09-16 11:56:58 177

原创 flink-1.9.0 standalone安装

下载地址：wget http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.9.0/flink-1.9.0-bin-scala_2.11.tgz结果：Connecting to mirrors.tuna.tsinghua.edu.cn (mirrors.tuna.tsinghua.edu.cn)|101.6.8.193|:80… ...

2019-09-12 12:04:25 846

原创 Flink的流处理与批处理

Flink的流处理与批处理Flink通过执行引擎，能够同时支持批处理与流处理任务。在执行引擎这一层，流处理系统与批处理系统最大的不同在于节点的数据传输方式。流处理系统对于一个流处理系统，其节点间数据传输的标准模型是：当一条数据被处理完成后，序列化到缓存中，然后立刻通过网络传输到下一个节点，由下一个节点继续处理。批处理系统而对于一个批处理系统，其节点间数据传输的模型是：当一条...

2019-09-10 14:50:50 2204

原创 hivesql uv

进来闲来无事，总结一下数仓面试吧！希望对小白有点用！有50W个某东网站店铺，每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志，访问日志存储的表名为Visit，访客的用户id为user_id，被访问的店铺名称为shop，请统计：1）每个店铺的UV（访客数）2）每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数1首先，先明白什么是uv？即（独立的访客）...

2019-08-29 00:44:44 510

空空如也

空空如也