- 博客(21)
- 资源 (43)
- 收藏
- 关注
原创 Spark读取TDengine
Spark+TDengine use process1. Installation of TDenginePlease refer to the official document:www.taosdata.com/cn/document…2. Establish test library and test table in TDenginetaos> create database test;taos>use test;#Here we create a table th
2021-04-25 16:56:58 593 1
原创 Spark读取hive表数据并将处理的数据写入HBase
package com.nbdpt.work4_hive2hbase2019import com.nbdpt.util.BaseUtilimport org.apache.hadoop.hbase.client.{ConnectionFactory, Get, Put}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputFormat.
2021-04-25 15:33:13 1096
原创 Spark读写数据demo
读HBase数据import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase.util.Bytesimport org.apache.spark._object HbaseSparkRead { def main(args: Array[String]): Unit = {
2021-04-25 11:36:33 233
原创 Structured Streaming demo
package com.unistack.tamboo.compute.process.impl; import com.alibaba.fastjson.JSONArray;import com.google.common.collect.Maps;import com.unistack.tamboo.compute.process.StreamProcess;import org.apache.kafka.clients.consumer.ConsumerRecord;import o.
2021-04-25 11:08:52 163
原创 Hive调优利器之explain详解
0 引言不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利!1 理论本节将介绍 explain 的用法及参数介绍HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助使用语法如下:EXPLAIN[EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE]..
2021-04-23 11:02:10 5398 4
原创 HiveSql工作中常见易错点总结
0 前言在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。在使用sql时如果不熟悉或不仔细,那么在进行查询分析时极容易出错,接下来我们就来看下几个容易出错的sql语句及使用注意事项。1. decimalhive 除了支持 int,double,string等常用类型,也支持 decimal 类型,用于在数据库中存储精确
2021-04-23 10:10:40 1083 1
转载 Spark:RDD数据分区数量总结(并行化集合parallelize与外部数据集textFile)
目录1、创建RDD2、RDD分区有关操作2.1、查看分区方式2.2、查看分区数2.3、查看不同分区内的数据2.4、重新分区2.5、设置分区数3、分区数3.1、并行化集合3.2、外部数据集textFile4、新版API中FileInputFormat的分片1、创建RDDSpark提供了两种方式创建RDD: 读取外部数据集,如SparkContext.textFile 在驱动器程序中对一个集合进行并行化,如SparkContext.para...
2021-04-21 15:27:47 1028
转载 Spark RDD 分区数计算详解
基础知识spark.default.parallelism:(默认的并发数)= 2当配置文件spark-default.conf中没有显示的配置,则按照如下规则取值:1、本地模式(不会启动executor,由SparkSubmit进程生成指定数量的线程数来并发): spark-shell spark.default.parallelism = 1 spark-shell --master local[N] spark.default.parallel...
2021-04-21 15:18:00 748
转载 git回退某一版本提交
直接找到要回退的版本号(这里是:83ff2785),reset之后,强行推送到服务器端:git reset --hard 83ff2785git push --force此时如果有人获取了更新的版本,可能拉去不下来,执行以下操作:git fetch --allgit reset --hard origin/branchnamebranchname就是分支的名称,这时候就和服务器端一致了。...
2021-04-20 18:12:38 165
原创 sqoop导出到MYSQL插入更新操作
1 导出控制参数1.参数--columns <col,col,col…>:要导出到表格的列。--direct:使用直接导出快速路径。--export-dir <dir>:用于导出的HDFS源路径。-m,--num-mappers <n>:使用n个mapper任务并行导出。--table <table-name>:要填充的表。--call <stored-proc-name>:存储过程调用。--update-key <co
2021-04-18 21:35:08 1467
原创 从spark.default.parallelism参数来看Spark并行度、并行计算任务概念
1 并行度与分区概念并行度:Spark作业中,各个stage的task数量,就代表Spark作业在各个阶段(stage)的并行度输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入切片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入切片生成具体的Task。InputSplit与Task是一一.
2021-04-18 20:49:40 5942 3
原创 读懂Spark广播变量
1 如何理解广播变量对指定列表中给定的单词计数。val dict = List(“spark”, “tune”)val words = spark.sparkContext.textFile(“~/words.csv”)val keywords = words.filter(word => dict.contains(word))keywords.map((_, 1)).reduceByKey(_ + _).collect按照这个需求,同学小 A 实现了如上的代码,一共有 4 行,
2021-04-17 15:15:41 745 1
原创 动态规划入门青蛙跳台阶问题
0 题目一只青蛙一次可以跳上1级台阶,也可以跳上2级台阶。求该青蛙跳上一个 n 级的台阶总共有多少种跳法。答案需要取模 1e9+7(1000000007),如计算初始结果为:1000000008,请返回 1。1 解题分析动态规划的组成部分:(1)确定状态划归为最后一步看问题。划归为子问题本题中以青蛙跳台阶的最后一步来看:青蛙跳上n级台阶有两种情况,要么青蛙跳一步,要门青蛙跳两步。1)当为1时即青蛙跳一步的时候:此时青蛙前面已经跳了n-1个台阶,有f(n-1)种跳法。2)
2021-04-15 18:33:51 2387
原创 SQL之求第二高薪水-HQL面试题30
0 需求编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null。+---------------------+| S...
2021-04-15 11:36:12 846 1
原创 HiveSql面试题--通过分桶算法解决事件类型问题思路
0 需求表结构:others user_id customer_id。如下所示:hive> select * from a;OK,,, 1 9,,, 2 8,,, 2 2,,, 3 ,,, 4 7当user_id = customer_id时候输出如下结果:1 数据准备create table a( others string, user_id string, c..
2021-04-11 14:51:58 465
原创 Hive with语句你所不知道的秘密
0 引言 公用表表达式(CTE)是从WITH子句中指定的简单查询派生的临时结果集(会把查询的表数据放到内存中,供其他查询随时使用),该子句紧跟在SELECT或INSERT关键字之前。CTE仅在单个语句的执行范围内定义。可以在HiveSELECT,INSERT,CREATE TABLE AS SELECT或CREATE VIEW AS SELECT语句中使用一个或多个CTE。 with as 也叫做子查询部分,首先定义一个sql片段,该sql片段会被整个sql语句所用到,为了让sql语句.......
2021-04-07 11:43:10 5209
原创 SQL一天一个小技巧:如何使用HQL统计数组中非0元素的个数
0 需求hive中怎么统计array中非零的个数【0,1,3,6,0】结果:非0的个数为31 实现(1)将array转换成字符串,采用concat_ws()函数select concat_ws(',',array) from test_array返回:0,1,3,6,0注意区分concat函数和concat_ws函数concat函数在连接字符串的时候,只要其中一个是NULL,那么将返回NULL concat_ws函数在连接字符串的时候,只要有一个字符串不是NULL,
2021-04-06 13:56:12 3628 3
原创 kafka获取分区编号的工具类
import org.apache.kafka.clients.producer.Partitioner;import org.apache.kafka.common.Cluster;import java.util.Map;/***@Author 小哥哥*@Company 爱吹牛逼的好程序员*@Date kafka分区工具类*@Description**/public class KafkaPartitionKeyUtil implements Partitioner { p.
2021-04-05 21:48:51 333
原创 利用循环不变量原理解决二分法边界问题
package jttl.jxresearch.com.hive.udf.test;public class Sloution { public static void main(String[] args) { } public int binarySearch(int[] arr,int target){ int left = 0; int right = arr.length - 1;//定义target在左闭右闭合的区间范围里。 .
2021-04-05 21:39:10 426
原创 数组中出现次数超过一半的数字
0 题目数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字。你可以假设数组是非空的,并且给定的数组总是存在多数元素。示例 1:输入: [1, 2, 3, 2, 2, 2, 5, 4, 2]输出: 21 解题方法本题实际上是求众数的思路。本题常见解法如下: 哈希表统计法: 借助外部空间存储数据(如hashset),并计数。此方法时间和空间复杂度均为 O(N) 。 数组排序法: 将数组 nums 排序,由于需要寻找的数字数量超过数组长度一半,因此排完序后的数组,...
2021-04-03 21:10:27 120
原创 Beeline – 命令行参数详解
Beeline Shell 在嵌入式模式和远程模式下均可工作。在嵌入式模式下,它运行嵌入式 Hive(类似于Hive CLI),而远程模式用于通过 Thrift 连接到单独的 HiveServer2 进程。从Hive 0.14开始,当 Beeline 与 HiveServer2 一起使用时,它还会打印 HiveServer2 的日志消息,以查询执行到 STDERR 的查询。建议将远程 HiveServer2 模式用于生产环境,因为它更安全并且不需要为用户授予直接 HDFS /元存储访问权限。Warnin
2021-04-01 18:15:08 9635
人工智能(深度学习)相关视频及资料
2018-06-26
STM32开发工具及相关资料包
2018-06-26
kafka细心原理与实战
2018-06-25
三套大数据实战项目集合(视频讲解+源代码+相关文档+相关软件资料)
2018-06-22
大厂算法面试题库中高频出现的30道典型题.pdf
2020-04-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人