2021年04月_莫叫石榴姐

11月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Spark读取TDengine

Spark+TDengine use process1. Installation of TDenginePlease refer to the official document:www.taosdata.com/cn/document…2. Establish test library and test table in TDenginetaos> create database test;taos>use test;#Here we create a table th

2021-04-25 16:56:58 593 1

原创 Spark读取hive表数据并将处理的数据写入HBase

package com.nbdpt.work4_hive2hbase2019import com.nbdpt.util.BaseUtilimport org.apache.hadoop.hbase.client.{ConnectionFactory, Get, Put}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputFormat.

2021-04-25 15:33:13 1096

原创 Spark读写数据demo

读HBase数据import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase.util.Bytesimport org.apache.spark._object HbaseSparkRead { def main(args: Array[String]): Unit = {

2021-04-25 11:36:33 233

原创 Structured Streaming demo

package com.unistack.tamboo.compute.process.impl; import com.alibaba.fastjson.JSONArray;import com.google.common.collect.Maps;import com.unistack.tamboo.compute.process.StreamProcess;import org.apache.kafka.clients.consumer.ConsumerRecord;import o.

2021-04-25 11:08:52 163

原创 Hive调优利器之explain详解

2021-04-23 11:02:10 5398 4

原创 HiveSql工作中常见易错点总结

0 前言在进行数仓搭建和数据分析时最常用的就是 sql，其语法简洁明了，易于理解，目前大数据领域的几大主流框架全部都支持sql语法，包括 hive，spark，flink等，所以sql在大数据领域有着不可替代的作用，需要我们重点掌握。在使用sql时如果不熟悉或不仔细，那么在进行查询分析时极容易出错，接下来我们就来看下几个容易出错的sql语句及使用注意事项。1. decimalhive 除了支持 int,double,string等常用类型，也支持 decimal 类型，用于在数据库中存储精确

2021-04-23 10:10:40 1083 1

转载 Spark：RDD数据分区数量总结(并行化集合parallelize与外部数据集textFile)

目录1、创建RDD2、RDD分区有关操作2.1、查看分区方式2.2、查看分区数2.3、查看不同分区内的数据2.4、重新分区2.5、设置分区数3、分区数3.1、并行化集合3.2、外部数据集textFile4、新版API中FileInputFormat的分片1、创建RDDSpark提供了两种方式创建RDD：读取外部数据集，如SparkContext.textFile 在驱动器程序中对一个集合进行并行化，如SparkContext.para...

2021-04-21 15:27:47 1028

转载 Spark RDD 分区数计算详解

基础知识spark.default.parallelism：（默认的并发数）= 2当配置文件spark-default.conf中没有显示的配置，则按照如下规则取值：1、本地模式（不会启动executor，由SparkSubmit进程生成指定数量的线程数来并发）： spark-shell spark.default.parallelism = 1 spark-shell --master local[N] spark.default.parallel...

2021-04-21 15:18:00 748

转载 git回退某一版本提交

直接找到要回退的版本号（这里是：83ff2785），reset之后，强行推送到服务器端：git reset --hard 83ff2785git push --force此时如果有人获取了更新的版本，可能拉去不下来，执行以下操作：git fetch --allgit reset --hard origin/branchnamebranchname就是分支的名称，这时候就和服务器端一致了。...

2021-04-20 18:12:38 165

原创 sqoop导出到MYSQL插入更新操作

1 导出控制参数1．参数--columns <col,col,col…>：要导出到表格的列。--direct：使用直接导出快速路径。--export-dir <dir>：用于导出的HDFS源路径。-m,--num-mappers <n>：使用n个mapper任务并行导出。--table <table-name>：要填充的表。--call <stored-proc-name>：存储过程调用。--update-key <co

2021-04-18 21:35:08 1467

原创从spark.default.parallelism参数来看Spark并行度、并行计算任务概念

1 并行度与分区概念并行度：Spark作业中，各个stage的task数量，就代表Spark作业在各个阶段（stage）的并行度输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入切片，称为InputSplit，注意InputSplit不能跨越文件。随后将为这些输入切片生成具体的Task。InputSplit与Task是一一.

2021-04-18 20:49:40 5942 3

原创读懂Spark广播变量

1 如何理解广播变量对指定列表中给定的单词计数。val dict = List(“spark”, “tune”)val words = spark.sparkContext.textFile(“~/words.csv”)val keywords = words.filter(word => dict.contains(word))keywords.map((_, 1)).reduceByKey(_ + _).collect按照这个需求，同学小 A 实现了如上的代码，一共有 4 行，

2021-04-17 15:15:41 745 1

原创动态规划入门青蛙跳台阶问题

0 题目一只青蛙一次可以跳上1级台阶，也可以跳上2级台阶。求该青蛙跳上一个 n 级的台阶总共有多少种跳法。答案需要取模 1e9+7（1000000007），如计算初始结果为：1000000008，请返回 1。1 解题分析动态规划的组成部分：（1）确定状态划归为最后一步看问题。划归为子问题本题中以青蛙跳台阶的最后一步来看：青蛙跳上n级台阶有两种情况，要么青蛙跳一步，要门青蛙跳两步。1）当为1时即青蛙跳一步的时候：此时青蛙前面已经跳了n-1个台阶，有f(n-1)种跳法。2）

2021-04-15 18:33:51 2387

原创 SQL之求第二高薪水-HQL面试题30

0 需求编写一个 SQL 查询，获取 Employee 表中第二高的薪水（Salary）。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表，SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水，那么查询应返回 null。+---------------------+| S...

2021-04-15 11:36:12 846 1

原创 HiveSql面试题--通过分桶算法解决事件类型问题思路

0 需求表结构：others user_id customer_id。如下所示：hive> select * from a;OK,,, 1 9,,, 2 8,,, 2 2,,, 3 ,,, 4 7当user_id = customer_id时候输出如下结果：1 数据准备create table a( others string, user_id string, c..

2021-04-11 14:51:58 465

原创 Hive with语句你所不知道的秘密

0 引言公用表表达式（CTE）是从WITH子句中指定的简单查询派生的临时结果集（会把查询的表数据放到内存中，供其他查询随时使用），该子句紧跟在SELECT或INSERT关键字之前。CTE仅在单个语句的执行范围内定义。可以在HiveSELECT，INSERT，CREATE TABLE AS SELECT或CREATE VIEW AS SELECT语句中使用一个或多个CTE。 with as 也叫做子查询部分，首先定义一个sql片段，该sql片段会被整个sql语句所用到，为了让sql语句.......

2021-04-07 11:43:10 5209

原创 SQL一天一个小技巧：如何使用HQL统计数组中非0元素的个数

0 需求hive中怎么统计array中非零的个数【0，1,3，6,0】结果：非0的个数为31 实现（1）将array转换成字符串，采用concat_ws（）函数select concat_ws(',',array) from test_array返回：0,1,3,6,0注意区分concat函数和concat_ws函数concat函数在连接字符串的时候，只要其中一个是NULL，那么将返回NULL concat_ws函数在连接字符串的时候，只要有一个字符串不是NULL，

2021-04-06 13:56:12 3628 3

原创 kafka获取分区编号的工具类

import org.apache.kafka.clients.producer.Partitioner;import org.apache.kafka.common.Cluster;import java.util.Map;/***@Author 小哥哥*@Company 爱吹牛逼的好程序员*@Date kafka分区工具类*@Description**/public class KafkaPartitionKeyUtil implements Partitioner { p.

2021-04-05 21:48:51 333

原创利用循环不变量原理解决二分法边界问题

package jttl.jxresearch.com.hive.udf.test;public class Sloution { public static void main(String[] args) { } public int binarySearch(int[] arr,int target){ int left = 0; int right = arr.length - 1;//定义target在左闭右闭合的区间范围里。 .

2021-04-05 21:39:10 426

原创数组中出现次数超过一半的数字

0 题目数组中有一个数字出现的次数超过数组长度的一半，请找出这个数字。你可以假设数组是非空的，并且给定的数组总是存在多数元素。示例 1:输入: [1, 2, 3, 2, 2, 2, 5, 4, 2]输出: 21 解题方法本题实际上是求众数的思路。本题常见解法如下：哈希表统计法：借助外部空间存储数据（如hashset），并计数。此方法时间和空间复杂度均为 O(N) 。数组排序法：将数组 nums 排序，由于需要寻找的数字数量超过数组长度一半，因此排完序后的数组，...

2021-04-03 21:10:27 120

原创 Beeline – 命令行参数详解

Beeline Shell 在嵌入式模式和远程模式下均可工作。在嵌入式模式下，它运行嵌入式 Hive(类似于Hive CLI)，而远程模式用于通过 Thrift 连接到单独的 HiveServer2 进程。从Hive 0.14开始，当 Beeline 与 HiveServer2 一起使用时，它还会打印 HiveServer2 的日志消息，以查询执行到 STDERR 的查询。建议将远程 HiveServer2 模式用于生产环境，因为它更安全并且不需要为用户授予直接 HDFS /元存储访问权限。Warnin

2021-04-01 18:15:08 9635

身份6位速查表.zip

前6位于对应省份地区地址的关系速查表，做数据的同学可以借用一下。

2020-04-29

Drools规则引擎介绍.ppt

drools规则引擎，了解规则匹配，专家系统的可以学习一下，java的同学也可以学习一下，各大厂也在用哦

2020-04-29

大数据架构题目.pdf

大数据架构面试题包含了数据治理、数据仓库、数据架构、数据分析题目，是面试不可多得的资料，需要的赶快入手。

2020-04-08

hive建表操作案例.txt

hive分桶，分区操作案例实战。学习的好资料。hive分桶，分区操作案例实战。学习的好资料。hive分桶，分区操作案例实战。学习的好资料。

2019-12-25

启动zk的脚本.sh

集群启动zk的脚本，只需要改集群参数就可以了集群启动zk的脚本，只需要改集群参数就可以了集群启动zk的脚本，只需要改集群参数就可以了

2019-12-25

FingerLocFun.m

matlab室内定位算法程序，可运行，稍微改改参数就可以了。matlab室内定位算法程序，可运行，稍微改改参数就可以了。

2019-12-25

尚硅谷大数据之Oozie.pdf

dashuju 大数据oozie尚硅谷主讲，内容总结详细

2019-08-21

尚硅谷python-人工智能课程(1).pptx

尚硅谷python，人工智能课件精讲，内容丰富，学到很多

2019-08-21

数据仓库架构师笔试题.docx

数据仓库架构师面试题，里面包含了各家的面试题，难度比较大，欢迎下载

2019-08-13

Azkaban实战通过5个不同场景介绍原理.docx

Azkaban实战通过5个不同场景介绍原理，实战级别，非常好用的资源。

2019-05-22

企业IT架构转型之道阿里巴巴中台战略思想与架构实战【高清+完整目录】(1).pdf

企业IT架构转型之道阿里巴巴中台战略思想与架构实战【高清+完整目录】很多人想要的资料哦

2019-05-22

scala从入门到进阶

1、本文档主要讲述了scala从基础到进阶的内容。2、内容全面，例程到位，适合初学者学习。

2018-07-19

java9新特性视频讲解（源码+视频+工具+资料）

java9新特性视频讲解（源码+视频+工具+资料），尚硅谷。

2018-06-27

人工智能（深度学习）相关视频及资料

1、本下载地址包括了：人工智能的相关学习资料，如python机器学习、机器学习实战，金融大数据分析、深度学习等相关资料。2、视频内容包含了，人工智能数学类基础学习、深度神经网络算法之Python基础与数据分析、深度神经网络算法之算法与编程及深度学习。3、该资料是学习人工智能极好的资料，网上有卖的，我分享出来与大家共享，觉得好久点个赞吧，哈哈。

2018-06-26