自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

石榴姐yyds

数据开发与数据挖掘

  • 博客(21)
  • 资源 (43)
  • 收藏
  • 关注

原创 Spark读取TDengine

Spark+TDengine use process1. Installation of TDenginePlease refer to the official document:www.taosdata.com/cn/document…2. Establish test library and test table in TDenginetaos> create database test;taos>use test;#Here we create a table th

2021-04-25 16:56:58 593 1

原创 Spark读取hive表数据并将处理的数据写入HBase

package com.nbdpt.work4_hive2hbase2019import com.nbdpt.util.BaseUtilimport org.apache.hadoop.hbase.client.{ConnectionFactory, Get, Put}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputFormat.

2021-04-25 15:33:13 1096

原创 Spark读写数据demo

读HBase数据import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase.util.Bytesimport org.apache.spark._object HbaseSparkRead { def main(args: Array[String]): Unit = {

2021-04-25 11:36:33 233

原创 Structured Streaming demo

​package com.unistack.tamboo.compute.process.impl; import com.alibaba.fastjson.JSONArray;import com.google.common.collect.Maps;import com.unistack.tamboo.compute.process.StreamProcess;import org.apache.kafka.clients.consumer.ConsumerRecord;import o.

2021-04-25 11:08:52 163

原创 Hive调优利器之explain详解

0 引言不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利!1 理论本节将介绍 explain 的用法及参数介绍HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助使用语法如下:EXPLAIN[EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE]..

2021-04-23 11:02:10 5398 4

原创 HiveSql工作中常见易错点总结

0 前言在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。在使用sql时如果不熟悉或不仔细,那么在进行查询分析时极容易出错,接下来我们就来看下几个容易出错的sql语句及使用注意事项。1. decimalhive 除了支持 int,double,string等常用类型,也支持 decimal 类型,用于在数据库中存储精确

2021-04-23 10:10:40 1083 1

转载 Spark:RDD数据分区数量总结(并行化集合parallelize与外部数据集textFile)

目录1、创建RDD2、RDD分区有关操作2.1、查看分区方式2.2、查看分区数2.3、查看不同分区内的数据2.4、重新分区2.5、设置分区数3、分区数3.1、并行化集合3.2、外部数据集textFile4、新版API中FileInputFormat的分片1、创建RDDSpark提供了两种方式创建RDD: 读取外部数据集,如SparkContext.textFile 在驱动器程序中对一个集合进行并行化,如SparkContext.para...

2021-04-21 15:27:47 1028

转载 Spark RDD 分区数计算详解

基础知识spark.default.parallelism:(默认的并发数)= 2当配置文件spark-default.conf中没有显示的配置,则按照如下规则取值:1、本地模式(不会启动executor,由SparkSubmit进程生成指定数量的线程数来并发): spark-shell spark.default.parallelism = 1 spark-shell --master local[N] spark.default.parallel...

2021-04-21 15:18:00 748

转载 git回退某一版本提交

直接找到要回退的版本号(这里是:83ff2785),reset之后,强行推送到服务器端:git reset --hard 83ff2785git push --force此时如果有人获取了更新的版本,可能拉去不下来,执行以下操作:git fetch --allgit reset --hard origin/branchnamebranchname就是分支的名称,这时候就和服务器端一致了。...

2021-04-20 18:12:38 165

原创 sqoop导出到MYSQL插入更新操作

1 导出控制参数1.参数--columns <col,col,col…>:要导出到表格的列。--direct:使用直接导出快速路径。--export-dir <dir>:用于导出的HDFS源路径。-m,--num-mappers <n>:使用n个mapper任务并行导出。--table <table-name>:要填充的表。--call <stored-proc-name>:存储过程调用。--update-key <co

2021-04-18 21:35:08 1467

原创 从spark.default.parallelism参数来看Spark并行度、并行计算任务概念

1 并行度与分区概念并行度:Spark作业中,各个stage的task数量,就代表Spark作业在各个阶段(stage)的并行度输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入切片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入切片生成具体的Task。InputSplit与Task是一一.

2021-04-18 20:49:40 5942 3

原创 读懂Spark广播变量

1 如何理解广播变量对指定列表中给定的单词计数。val dict = List(“spark”, “tune”)val words = spark.sparkContext.textFile(“~/words.csv”)val keywords = words.filter(word => dict.contains(word))keywords.map((_, 1)).reduceByKey(_ + _).collect按照这个需求,同学小 A 实现了如上的代码,一共有 4 行,

2021-04-17 15:15:41 745 1

原创 动态规划入门青蛙跳台阶问题

0 题目一只青蛙一次可以跳上1级台阶,也可以跳上2级台阶。求该青蛙跳上一个 n 级的台阶总共有多少种跳法。答案需要取模 1e9+7(1000000007),如计算初始结果为:1000000008,请返回 1。1 解题分析动态规划的组成部分:(1)确定状态划归为最后一步看问题。划归为子问题本题中以青蛙跳台阶的最后一步来看:青蛙跳上n级台阶有两种情况,要么青蛙跳一步,要门青蛙跳两步。1)当为1时即青蛙跳一步的时候:此时青蛙前面已经跳了n-1个台阶,有f(n-1)种跳法。2)

2021-04-15 18:33:51 2387

原创 SQL之求第二高薪水-HQL面试题30

0 需求编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null。+---------------------+| S...

2021-04-15 11:36:12 846 1

原创 HiveSql面试题--通过分桶算法解决事件类型问题思路

0 需求表结构:others user_id customer_id。如下所示:hive> select * from a;OK,,, 1 9,,, 2 8,,, 2 2,,, 3 ,,, 4 7当user_id = customer_id时候输出如下结果:1 数据准备create table a( others string, user_id string, c..

2021-04-11 14:51:58 465

原创 Hive with语句你所不知道的秘密

0 引言 公用表表达式(CTE)是从WITH子句中指定的简单查询派生的临时结果集(会把查询的表数据放到内存中,供其他查询随时使用),该子句紧跟在SELECT或INSERT关键字之前。CTE仅在单个语句的执行范围内定义。可以在HiveSELECT,INSERT,CREATE TABLE AS SELECT或CREATE VIEW AS SELECT语句中使用一个或多个CTE。 with as 也叫做子查询部分,首先定义一个sql片段,该sql片段会被整个sql语句所用到,为了让sql语句.......

2021-04-07 11:43:10 5209

原创 SQL一天一个小技巧:如何使用HQL统计数组中非0元素的个数

0 需求hive中怎么统计array中非零的个数【0,1,3,6,0】结果:非0的个数为31 实现(1)将array转换成字符串,采用concat_ws()函数select concat_ws(',',array) from test_array返回:0,1,3,6,0注意区分concat函数和concat_ws函数concat函数在连接字符串的时候,只要其中一个是NULL,那么将返回NULL concat_ws函数在连接字符串的时候,只要有一个字符串不是NULL,

2021-04-06 13:56:12 3628 3

原创 kafka获取分区编号的工具类

import org.apache.kafka.clients.producer.Partitioner;import org.apache.kafka.common.Cluster;import java.util.Map;/***@Author 小哥哥*@Company 爱吹牛逼的好程序员*@Date kafka分区工具类*@Description**/public class KafkaPartitionKeyUtil implements Partitioner { p.

2021-04-05 21:48:51 333

原创 利用循环不变量原理解决二分法边界问题

package jttl.jxresearch.com.hive.udf.test;public class Sloution { public static void main(String[] args) { } public int binarySearch(int[] arr,int target){ int left = 0; int right = arr.length - 1;//定义target在左闭右闭合的区间范围里。 .

2021-04-05 21:39:10 426

原创 数组中出现次数超过一半的数字

0 题目数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字。你可以假设数组是非空的,并且给定的数组总是存在多数元素。示例 1:输入: [1, 2, 3, 2, 2, 2, 5, 4, 2]输出: 21 解题方法本题实际上是求众数的思路。本题常见解法如下: 哈希表统计法: 借助外部空间存储数据(如hashset),并计数。此方法时间和空间复杂度均为 O(N) 。 数组排序法: 将数组 nums 排序,由于需要寻找的数字数量超过数组长度一半,因此排完序后的数组,...

2021-04-03 21:10:27 120

原创 Beeline – 命令行参数详解

Beeline Shell 在嵌入式模式和远程模式下均可工作。在嵌入式模式下,它运行嵌入式 Hive(类似于Hive CLI),而远程模式用于通过 Thrift 连接到单独的 HiveServer2 进程。从Hive 0.14开始,当 Beeline 与 HiveServer2 一起使用时,它还会打印 HiveServer2 的日志消息,以查询执行到 STDERR 的查询。建议将远程 HiveServer2 模式用于生产环境,因为它更安全并且不需要为用户授予直接 HDFS /元存储访问权限。Warnin

2021-04-01 18:15:08 9635

身份6位速查表.zip

前6位于对应省份地区地址的关系速查表,做数据的同学可以借用一下。

2020-04-29

Drools规则引擎介绍.ppt

drools规则引擎,了解规则匹配,专家系统的可以学习一下,java的同学也可以学习一下,各大厂也在用哦

2020-04-29

大数据架构题目.pdf

大数据架构面试题包含了数据治理、数据仓库、数据架构、数据分析题目,是面试不可多得的资料,需要的赶快入手。

2020-04-08

hive建表操作案例.txt

hive分桶,分区操作案例实战。学习的好资料。hive分桶,分区操作案例实战。学习的好资料。hive分桶,分区操作案例实战。学习的好资料。

2019-12-25

启动zk的脚本.sh

集群启动zk的脚本,只需要改集群参数就可以了集群启动zk的脚本,只需要改集群参数就可以了集群启动zk的脚本,只需要改集群参数就可以了

2019-12-25

FingerLocFun.m

matlab室内定位算法程序,可运行,稍微改改参数就可以了。matlab室内定位算法程序,可运行,稍微改改参数就可以了。

2019-12-25

尚硅谷大数据之Oozie.pdf

dashuju 大数据oozie尚硅谷主讲,内容总结详细

2019-08-21

尚硅谷python-人工智能课程(1).pptx

尚硅谷python,人工智能课件精讲,内容丰富,学到很多

2019-08-21

数据仓库架构师笔试题.docx

数据仓库架构师面试题,里面包含了各家的面试题,难度比较大,欢迎下载

2019-08-13

Azkaban实战通过5个不同场景介绍原理.docx

Azkaban实战通过5个不同场景介绍原理,实战级别,非常好用的资源。

2019-05-22

企业IT架构转型之道 阿里巴巴中台战略思想与架构实战【高清+完整目录】(1).pdf

企业IT架构转型之道 阿里巴巴中台战略思想与架构实战【高清+完整目录】很多人想要的资料哦

2019-05-22

scala从入门到进阶

1、本文档主要讲述了scala从基础到进阶的内容。2、内容全面,例程到位,适合初学者学习。

2018-07-19

java9新特性视频讲解(源码+视频+工具+资料)

java9新特性视频讲解(源码+视频+工具+资料),尚硅谷。

2018-06-27

人工智能(深度学习)相关视频及资料

1、本下载地址包括了:人工智能的相关学习资料,如python机器学习、机器学习实战,金融大数据分析、深度学习等相关资料。2、视频内容包含了,人工智能数学类基础学习、深度神经网络算法之Python基础与数据分析、深度神经网络算法之算法与编程及深度学习。3、该资料是学习人工智能极好的资料,网上有卖的,我分享出来与大家共享,觉得好久点个赞吧,哈哈。

2018-06-26

STM32开发工具及相关资料包

各种常用的模块及工具,代码。如:ST-Link V2仿真器驱动、03.JLink仿真器驱动、11.USB转串口HL-340,FT232R驱动、14.字库提取软件、13.图片图标处理软件、16.TCP UDP协议测试工具等等,太多了我不想写了。。。。

2018-06-26

kafka细心原理与实战

1、对kafka基本概念及原理性进行探讨。2、对kafka配置文件进行总结和分析 3、详细介绍了kafkaAPI编程。4、kafka的存储原理进行分析。适合kafka入门级资料

2018-06-25

三套大数据实战项目集合(视频讲解+源代码+相关文档+相关软件资料)

1、大数据平台基础概述。2、驴妈妈大数据平台项目。3、某团购网大型电商离线数据分析平台。4、视频讲解+源代码+相关文档+相关软件资料

2018-06-22

hbase优化总结

本文档主要对hbase的优化进行了总结,对项目中使用hbase的调优具有一定的指导意义

2018-06-20

hive参数优化总结

本文档主要总结了hive的参数优化,对hive的理解具有一定的作用

2018-06-20

剩余漏电保护器通讯规约指令解析(简化版)

本文档是对剩余漏电保护器通信规约指令进行解析,方便程序员进行编程使用,该版本为国网通信规约简化版,方便代码的编写。

2018-02-06

greenplum的驱动

gP驱动包,可以应用在datagrip等,哈哈哈哈,非常好用

2023-05-19

Hive调优全方位指南.pdf

Hive调优全方位指南,总结了25条关于Hive调优的经验,对于大数据及hive工程师是不可多得的资源。

2020-12-28

硕士英语综合教程2_课后答案.doc

硕士英语综合教程2_课后答案.doc

2020-10-23

KafkaAdminClient:Kafka的运维利器.docx

KafkaAdminClient:Kafka的运维利器.docx

2020-10-23

第四章 矩阵的分解.ppt

第四章 矩阵的分解.ppt

2020-10-23

Git讲义 .pdf

Git讲义,深度讲解git的用法,里面列举了多个案例,是学习git不可或缺的资源。

2020-10-23

分析函数.xmind

分析函数.xmind

2020-10-23

left join 闭坑指南.pdf

left join 闭坑指南.pdf

2020-10-23

数仓深度数据模型设计.pdf

数仓深度数据模型设计.pdf

2020-10-14

Hive调优,数据工程师成神之路.pdf

Hive调优,数据工程师成神之路。

2020-10-14

hbase备份脚本,hbase备份脚本

hbase备份脚本

2020-10-14

hadoop-辅助工具-笔记.docx

hadoop-辅助工具-笔记

2020-05-13

矩阵论课件及考试题.rar

矩阵论课件及考试题.rar

2020-05-11

矩阵理论试题及其解答.doc

矩阵理论试题及其解答.doc

2020-05-11

最优控制(考试题)2015.doc

最优控制(考试题)2015.doc

2020-05-11

博士研究高等数值分析试题.doc

博士研究高等数值分析试题.doc

2020-05-11

大厂算法面试题库中高频出现的30道典型题.pdf

大厂算法面试题,高频出现的30题,面试绝对有用。如果你刷leetcode题目很多,为了面试不如看看高频题,这30到够用了,经常会被笔试到,资料很好。

2020-04-29

基于语义搜索+知识问答系统设计.pdf

基于ES的知识问答系统设计,文中给出了具体demo,是不可多得学习资料,文中系统的讲解设计方法及原理。

2020-04-29

知识图谱PPT汇总1000多页.pptx

学习知识图谱或有做知识图谱的小伙伴福利来了1000多页知识图谱PPT资料及素材,非常完美的学习资料。

2020-04-29

泡泡龙游戏JAVA版(带注释).zip

java版泡泡龙游戏,学习这个主要在提高你的java水平,用IDEA打开便可学习,是不可能多的资料,带注释。

2020-04-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除