![](https://img-blog.csdnimg.cn/20210104162253114.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据日常记录
大数据常用软件的一些配置
DSJ_ kohler
逻辑严谨
展开
-
hive统计函数《归因统计》
用法:percentile_approx(数值类型、array(需要统计的百分比…注意该函数是聚合函数。原创 2022-10-23 16:56:34 · 600 阅读 · 0 评论 -
用图带你了解大数据框架架构之DophinScheduler
用途:任务调度优势:分布式、易扩展、可视化的DAG工作流,开箱即用,国产易用。原创 2022-10-15 09:45:16 · 2126 阅读 · 0 评论 -
Datax安装及使用[Mysql <-> HDFS]
是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。原创 2022-10-07 10:33:21 · 554 阅读 · 0 评论 -
Maven的配置
安装程序1) 检查JAVA_HOME环境变量。Maven是使用Java开发的,所以必须知道当前系统环境中JDK的安装目录2) 解压Maven的核心程序。将apache-maven-3.5.4-bin.zip解压到一个非中文无空格的目录下。例如:E:\apache-maven-3.5.43) 配置环境变量。M2_HOMEE:\apache-maven-3.5.4path%M2_HOME%\bin4) 查看Maven版本信息验证安装是否正确(mvn -v)C:\Users原创 2020-12-07 16:25:13 · 168 阅读 · 0 评论 -
Hive sql在执行时如何优化?
hive sql优化原创 2022-07-10 11:38:08 · 393 阅读 · 0 评论 -
Spark判断HDFS路径数据是否存在
该方法不需要使用hdfs的配置文件??import org.apache.hadoop.fs.{FSDataOutputStream, FileSystem, Path}val filePath = new org.apache.hadoop.fs.Path(Path)val fileSystem = filePath.getFileSystem(spark.sparkContext.hadoopConfiguration)//判断该路径下的HDFS文件是否存在fileSystem.exis原创 2022-05-29 10:58:30 · 677 阅读 · 0 评论 -
flink的slot如何配置?
Task Solt的配置为什么等于提交代码运行的最大的并行度?1、为了提高容错,如果一个slot失败,可以直接分配到其他slot执行2、由于每个算子的执行速度不同,flink为了保证并行执行的效率,不是将每个合并后的操作分配到一个Task Slot中(有些执行快,有些执行慢,慢的还会一直占用该slot),而是采用在每个slot中存所有的操作例如:public class BatchWordCount { public static void main(String[] args) th原创 2022-04-16 10:29:05 · 3538 阅读 · 0 评论 -
Python使用protobuf格式通信(遇到的坑)
1、安装使用清华源进行安装pip3 install https://pypi.tuna.tsinghua.edu.cn/simple grpcio grpcio-tools protobuf坑:根据.proto文件转化时报错,但grpc-tools安装成功了Error while finding module specification for 'grpc_tools.protoc' (ModuleNotFoundError: No module named 'grpc_tools')原创 2021-12-11 09:57:09 · 1543 阅读 · 0 评论 -
Redis客户端常用命令大全
基本操作命令含义select [number]切换库,默认16个库flushdb清空库dbsize查看数据库中数据个数flushall清空所有库key操作命令含义keys xxx查找key,xxx为表达式,支持 * ?type key查看key对应值的类型exists key指定的key是否存在,0代表不存在,drdel key删除指定keyrandomkey在现有的KEY中随机返回一个ex原创 2021-12-05 10:58:08 · 890 阅读 · 0 评论 -
IDEA2020及以上设置Scala代码自动显示变量类型
File --> settings -->Editor --> Inlay Hints -->Scala -->Type hints在Member variables、Method results、Local variables前打对钩原创 2021-08-08 08:25:40 · 729 阅读 · 0 评论 -
某厂大数据面试问题总结(补充)
SPARK问题:1、常见的数据倾斜解决方法有哪些,怎么在spark中定位数据倾斜的问题?2、在spark 中遇到not serializable 的原因是什么,要怎么解决?3、如何在spark中设置缓存,应对读写热点的问题?4、spark中RDD是否可以嵌套,在RDD中调用RDD?为什么?5、如何用spark读取hbase的数据,或者是其他数据库中的数据?6、为什么说spark会比MR快?7、spark使用中遇到最多的问题是什么?有什么解决方案?8、spark程序,可以设置哪些persist原创 2021-07-21 23:42:54 · 446 阅读 · 1 评论 -
Spark数据倾斜及解决方案
数据源读kafka问题来源spark的每个task消费一个kafka的partition,如果kafka的partition之间存在数据倾斜,则会导致spark在处理数据时也存在数据倾斜解决方案在kafka生产端产生数据时,采用随机Partitioner的方式生产,确保数据能够在各个partition之间的一个平衡读文件问题来源...原创 2021-07-01 23:46:33 · 256 阅读 · 2 评论 -
presto和Hive语法差异
presto和Hive差异prestoHive数组数组有动态下标,下标从1开始下标常量,下标从0开始标识符数字开头用"", eg: from “2days”无stringvarcharstring运算5/2=25/2=2.5列转行unnestlaterval view explode()JSON处理json_extract_scalarget_json_objectdate转string(隐式转换)不支持支持con原创 2021-06-18 23:21:27 · 708 阅读 · 1 评论 -
log4j的配置文件
转载与:https://www.cnblogs.com/xuxinstyle/p/10766405.html基本格式 #配置根Loggerlog4j.rootLogger = [ level ] , appenderName1 , appenderName2 , …#配置日志信息输出目的地Appenderlog4j.appender.appenderName = fully.qualified.name.of.appender.class log4j.appender转载 2021-04-22 17:06:05 · 75 阅读 · 0 评论 -
flink-yarn启动yarn-session时报错Deployment took more than 60 seconds
报错信息INFO org.apache.flink.yarn.YarnClusterDescriptor [] - Deployment took more than 60 seconds. Please check if the requested resources are available in the YARN cluster由于flink配置了高可用,所以在启动时需要启动zookeeper,如果不启动zookeeper,高可用则不能使用,会报如上错误。启动zookeeper再启原创 2021-04-14 14:58:52 · 4350 阅读 · 0 评论 -
Flink实时项目--恶意登录监控
恶意登录需求:对一段时间内(比如一天内)的用户点击行为进行约束,如果对同一个广告点击超过一定限额(比如100次),应该把该用户加入黑名单并报警,此后其点击行为不应该再统计方式一:import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;import org.apache.flink.api.common.eventtime.WatermarkStrategy;import org.apache.f原创 2021-04-12 18:31:41 · 453 阅读 · 0 评论 -
ES的API操作
import com.atguigu.entity.Person;import io.searchbox.client.JestClient;import io.searchbox.client.JestClientFactory;import io.searchbox.client.config.HttpClientConfig;import io.searchbox.core.DocumentResult;import io.searchbox.core.Index;import java原创 2021-03-25 09:21:02 · 216 阅读 · 0 评论 -
ES关键字
关键字含义类比SQLquery查询selectbool多个组合条件selext xxx from xxx where age=20 and gender=malefilter一个过滤条件whereterm精确匹配=match全文检索,会分词must在过滤条件中使用,代表必须包含fuzzy模糊音匹配dick 联想到 nick pickfrom从哪一条开始取size取多少条limit_source只...原创 2021-03-23 21:18:03 · 2032 阅读 · 1 评论 -
sparkstreaming的redis工具类
import java.util.Propertiesimport redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig}/** * @ClassName: RedisUtil * @Description: * @Author: kele * @Date: 2021/3/17 15:20 **/object RedisUtil { var jedisPool: JedisPool = _ def getJed原创 2021-03-22 20:28:14 · 175 阅读 · 0 评论 -
sparkstreaming的kafka工具类
配置ds的kafka的工具类,使用时直接调用配置文件# Kafka配置kafka.broker.list=hadoop102:9092,hadoop103:9092,hadoop104:9092scala实现读取properties工具类import java.io.InputStreamReaderimport java.util.Properties/** * @ClassName: PropertiesUtil * @Description: * @Author: k原创 2021-03-22 20:21:56 · 221 阅读 · 0 评论 -
Spark中RDD的分区数时如何的?
看目录可能方便1、由集合创建的RDD1.1、指定了分区数val rdd = sc.parallelize(list,6) 分区数 = 指定分区数1.2、设置了spark.default.parallelismval sc = new SparkContext(new SparkConf().set("spark.default.parallelism","10").setMaster("local[4]").setAppName("test")) 默认分区数 = spark.defaul原创 2021-03-18 15:34:58 · 236 阅读 · 1 评论 -
即席查询之:Presto
一、Presto架构二、优缺点优点1、Presto采用内存到内存的方式,相对于Mapreduce查询(容错机制,为了保障准确性,中间写入磁盘),减少了中间写入磁盘,从磁盘读取数据的方式。计算更快2、减少阶段间的等待时间,Mapreduce不支持DAG,maptask未完成,不能执行reduce,Presto采取管道式传输的方式,边清理内存,边计算。3、可以连接多个数据源,比如同时查询hive和mysql的数据再合并缺点1、需要较大的内存2、关联查询会变慢三、安装0)官网地址原创 2021-03-09 21:24:09 · 310 阅读 · 0 评论 -
Phoenix连接jadbc的API操作HBase
package com.atguigu.day01;import org.apache.phoenix.queryserver.client.ThinClientUtil;import org.junit.After;import org.junit.Before;import org.junit.Test;import java.sql.*;import java.util.Properties;import java.util.Random;/** * @ClassName: P原创 2021-02-23 19:34:27 · 175 阅读 · 0 评论 -
HBase的API操作
详细操作:相关代码package com.atguigu.day01;import javafx.scene.control.Tab;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.io.compress.Compression;import or原创 2021-02-22 20:32:39 · 183 阅读 · 0 评论 -
SparkStreaming之优雅关闭
package com.atguigu.day09import java.net.URIimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.{FileSystem, Path}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * @ClassName:原创 2021-02-19 16:25:34 · 306 阅读 · 0 评论 -
SparkStreaming保存数据至MySQL
import java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * @ClassName: DStreamOutput * @Description: * @Author: kele * @Date: 2021/2/19 9:40原创 2021-02-19 11:49:41 · 517 阅读 · 0 评论 -
spark SQL项目应用
需求:统计各区域热门商品Top31、一共有3张表:1张用户行为表,1张城市表,1张产品表。2、地区 商品名称 点击次数 城市备注(计算各个区域前三大热门商品,并备注上每个商品在主要城市中的分布比例,超过两个城市用其他显示。)表一:城市表1 北京 华北2 上海 华东3 深圳 华南4 广州 华南5 武汉 华中6 南京 华东7 天津 华北8 成都 西南9 哈尔滨 东北10 大连 东北11 沈阳 东北12 西安 西北13 长沙 华中14 重庆 西南15 济南 华东16 石原创 2021-02-02 21:11:40 · 241 阅读 · 0 评论 -
spark中自定义udf,udaf函数
自定义函数类型 - UDF:一进一出 - UDAF:多进一出UDAFUDAF弱类型实现总体流程1、继承UserDefinedAggregateFunction( 没有泛型)2、重写方法- 1、指定带统计列表的类型- 2、指定中间变量的类型- 3、指定函数的返回类型- 4、设置稳定性- 5、初始化中间变量的值- 6、求在一个task中的计算过程- 7、求在分区间的计算过程- 8、函数的返回值3、注册spark.udf.register,为其绑定一个名字自定义UDAF弱原创 2021-02-01 20:42:29 · 596 阅读 · 0 评论 -
统计每个用户每小时的最大登录次数
数据文件a,2020-07-11 10:51:12a,2020-07-11 11:05:00a,2020-07-11 11:15:20a,2020-07-11 11:25:05a,2020-07-11 11:45:00a,2020-07-11 11:55:36a,2020-07-11 11:59:56a,2020-07-11 12:35:12a,2020-07-11 12:58:59b,2020-07-11 14:05:00b,2020-07-11 14:51:12b,2020-07原创 2021-01-28 17:27:38 · 273 阅读 · 0 评论 -
Spark源码分析--读取本地集合时分区情况
一、通过集合创建的RDD的分区数// 源码分析之:通过集合创建的RDD默认分区数val rdd = sc.parallelize(list)// 1、查看parallelize的源码,传入两个参数:1、集合,2、片数,返回一个RDD def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] //切片数等于defaultParallelism //原创 2021-01-26 16:07:02 · 157 阅读 · 0 评论 -
scala问题
val br = new BufferedReader(new FileReader("E:\\question\\driver.txt")) var s: String = null var list = ListBuffer[String]() try { while ((s = br.readLine()) != null) { if(s == null) throw new Exception list原创 2021-01-21 14:35:53 · 81 阅读 · 0 评论 -
sqoop常用指令
Sqoop常用指令公共参数–connect指定连接的url 例如:jdbc:mysql://hadoop102:3306–username指定登录账号–password指定登录密码–driver指定驱动类[可以通过url推断,可以不写]import控制参数–append指定是否将数据追加到指定目录–as-textfile指定数据保存到hdfs上以text的文件格式保存–as-parquetfile指定数据保存原创 2021-01-15 19:54:17 · 270 阅读 · 0 评论 -
kafka框架
kafkakafka概述消息队列的两种模式1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)2)发布/订阅模式(一对多,消费者消费数据之后不会清除消息)(1)Producer :消息生产者,就是向kafka broker发消息的客户端;(2)Consumer :消息消费者,向kafka broker取消息的客户端;(3)Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个消费者消费;消费原创 2021-01-06 20:56:54 · 2325 阅读 · 0 评论 -
Flume框架
实现负载转移配置# 读取信息端配置# 通过netcat工具实现对端口发送数据检测# Name the components on this agenta1.sources = r1a1.sinks = k1 k2a1.channels = c1 # Describe/configure the sourcea1.sources.r1.type = netcata1.sources.r1.bind = localhosta1.sources.r1.port = 8888# Descr原创 2021-01-06 08:19:23 · 138 阅读 · 2 评论 -
Hive常用命令
Hive简介:Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive数据类型基本数据类型HIVEMySQLJAVA长度例子TINYINTTINYINTbyte1byte有符号整数2SMALINTSMALINTshort2byte有符号整数20INTINTint4byte有符号整数20BIGINTBIG原创 2021-01-04 08:27:07 · 219 阅读 · 0 评论 -
Hadoop配置Hive(MySQL)
Hive安装地址1)Hive官网地址http://hive.apache.org/2)文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3)下载地址http://archive.apache.org/dist/hive/4)github地址https://github.com/apache/hive安装MySQL1、先检查是否安装过MySQLrpm -qa|grep mariadb mariadb-原创 2020-12-26 13:10:41 · 405 阅读 · 2 评论 -
hadoop集群配置HA
配置HA,基于Zookeeper配置完成配置NameNode一 准备工作1.把所有的服务给停掉2.清理/tmp下所有的内容3.删除hadoop中的data和logs4.一定要保证各节点之间可以使用ssh无密登录二 手动故障转移5.配置core-site.xml <!--指定HDFS中NameNode的地址 --> <property> <name>fs.defaultFS</name> <value>hdf原创 2020-12-25 18:41:30 · 198 阅读 · 0 评论 -
Zookeeper简单实现对监控
先启动所有机器的zookeeper服务Client端import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;import org.apache.zookeeper.ZooKeeper;import java.io.IOException;import java.util.List;/* 客户端:原创 2020-12-24 09:53:59 · 340 阅读 · 0 评论 -
Hadoop集群配置Zookeeper
解压、安装将zookeeper压缩包解压到指定目录下tar -zxvf zookeeper-3.5.7.tar.gz -C /opt/module/配置服务器编号1)在/opt/module/zookeeper-3.5.7/这个目录下创建zkData# 如果是存在之前的zkData,注意要删除zkData中的所有文件 mkdir -p zkData2)在/opt/module/zookeeper-3.5.7/zkData目录下创建一个myid的文件 touch myid3)编辑myi原创 2020-12-23 13:29:15 · 398 阅读 · 0 评论 -
hadoop集群配置
(1)基本语法ssh另一台电脑的ip地址原创 2020-12-14 19:37:39 · 99 阅读 · 1 评论