大数据
文章平均质量分 74
Master_slaves
这个作者很懒,什么都没留下…
展开
-
(数仓)数据同步方式
确定数据原始表与数据目标表原始表:读:数据来源目标表:写:数据目的地确定离线同步还是实时同步根据业务需要,如果没有必要,可选择离线同步,减少资源消耗确定增量同步还是全量同步一般数据初始化时需要全量同步,周期同步时均为增量同步;增量同步时,需要设置筛选条件,确保拉取数据不重叠。原创 2024-11-04 10:53:16 · 734 阅读 · 0 评论 -
Hive (小案例)查找字符串每个字符出现的下标
【代码】Hive (小案例)查找字符串每个字符出现的下标。原创 2024-11-04 09:11:52 · 114 阅读 · 0 评论 -
hive分区表增加字段的问题
由于近期业务需要,需对现已存在的分区表增加字段,遇到了一个小问题记录一下:alter table table_name add columns (c_time string comment '当前时间');再往改分区表插入数据后,通过hive查询查不到改字段的值。问题解决:如果是按日期分区的表,不会出现这问题,因为再第二天往里写的时候会刷新分区数据。 不是日期分区的表,需要手动刷...原创 2020-05-08 11:57:33 · 784 阅读 · 0 评论 -
spark-任务提交多个jar包问题(Oozie调度)
spark-submit \--class com.xxx.bigdata.handler.xxx \ -- 运行的主类--master yarn \--deploy-mode client \--driver-memory 1g \--executor-memory 2g \--executor-cores 2 \--jars hdfs:///user/admin/xx/bas...原创 2020-01-02 17:23:41 · 2607 阅读 · 0 评论 -
spark-streaming 手动提交偏移量至mysql和Druid数据连接池
文章目录一原生查询偏移量二 Druid数据库连接池三 在mysql中创建对应的偏移量表四 获取mysql中的偏移量五维护偏移量至mysql六 获取kafka Dstream七 测试代码八查看mysql中的结果数据一原生查询偏移量 val driver = "com.mysql.jdbc.Driver" val url = "jdbc:mysql://aliyun01:3306/kafka...原创 2019-11-04 20:02:13 · 1240 阅读 · 0 评论 -
Flink乱序处理测试
文章目录一 数据源二 测试三 总结一 数据源def main(args: Array[String]): Unit = { val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment //设置时间语义 时间发生时间 env.setStreamTime...原创 2019-10-23 19:37:06 · 430 阅读 · 0 评论 -
Flink keyed state 和RichFunction测试
文章目录一 数据源及入口二 key State2.1 ValueState[T]保存单个的值,值的类型为T。2.2 ListState[T]保存一个列表,列表里的元素的数据类型为T。基本操作如下:2.3 MapState[K, V]保存Key-Value对。2.4 ReducingState[T]2.5 AggregatingState[I, O]2.6 State.clear()是清空操作。三...原创 2019-10-23 15:51:38 · 925 阅读 · 0 评论 -
Flink-SideOutput测输出流-实现分流
文章目录一 数据源二 分流三 输出结果大部分的DataStream API的算子的输出是单一输出,也就是某种数据类型的流。除了split算子,可以将一条流分成多条流,这些流的数据类型也都相同。process function的side outputs功能可以产生多条流,并且这些流的数据类型可以不一样。一个side output可以定义为OutputTag[X]对象,X是输出流的数据类型。proc...原创 2019-10-23 14:40:15 · 2671 阅读 · 0 评论 -
Flink waterMaker+timeWindow测试
文章目录一 数据源二 滑动窗口三 滚动窗口四 会话窗口注意:一 数据源样例类case class SensorReading(id:String,ts:Long,tm:Double){} val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment //设置时间语...原创 2019-10-23 10:10:50 · 471 阅读 · 0 评论 -
Flink 入门程序WordCount
文章目录一 项目依赖二 编码2.1 批处理2.2 流式WordCount一 项目依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactI...原创 2019-10-20 10:32:13 · 378 阅读 · 0 评论 -
大数据编程常用方法、依赖、工具
文章目录1 修改序列化器2 Java集合与Scala集合相互转换需要得隐式转换3 DS与RDD、DF之间相互转换得隐式转换4 广播变量5 累加器6 自定义累加器需继承AccumulatorV2这个类7 SparkContext的创建方式8 SparkSession的创建方式9 SparkStreaming的创建方式10 自定义聚合函数11 本地通过SparkSql 查询Hive12 SparkSt...原创 2019-10-15 20:29:15 · 1150 阅读 · 0 评论 -
Scala-操作Es写入数据
文章目录一 需求描述二 依赖三 手动指定MovieMapping四 写数据到Es中4.1 写入Es工具类4.2 测试五 从es中查询数据一 需求描述使用Spark读取本地Json文件,将读出的电影数据写入到Es中按照电影的Id进行分组统计,统计出每个电影的平均分,升序二 依赖<!--es 相关依赖开始--> <dependency> ...原创 2019-10-12 21:43:11 · 4074 阅读 · 0 评论 -
Kibana Web页面操作Elastic Search
一 准备工作es版本6.3.1 kibana 版本6.3.1启动三台ES节点,组建成Es集群启动kibana 连接上Es访问kibana提供的Web页面http://hadoop102:5601二 接口Restfull Api2.1 查看es中有哪些索引GET /_cat/indices?v表头含义:health green(集群完整) yellow(单点正常、集群不...原创 2019-10-12 19:18:28 · 2174 阅读 · 0 评论 -
mybatis整合Phoenix实现日活数据实时查询
简介通过mybatis统计出当天日活数据,返回Json数据一 准备二 项目分层配置三 测试接口原创 2019-10-10 20:01:39 · 776 阅读 · 0 评论 -
spark-整合Phoenix将数据写入Hbase
文章目录一 环境准备1.1 pom文件1.2 config配置:1.3 properties解析工具类1.4 HbaseUtil工具类1.5 kafkaUtil根据指定的topic返回对应的Dstream1.6 jedisUtils从连接池中获取Jedis连接实例1.7 样例类二 Spark直接将数据写入Hbase三 Spark整合Phoenix将数据写入hbase四遇到的问题问题1 :Phoen...原创 2019-10-09 20:49:40 · 2903 阅读 · 0 评论 -
nginx和nginx kafka插件
文章目录一 nginx 安装1.1 nginx与nginx kafka插件下载1.2 nginx kafka下载编译1.2.1 直接clone到本地再上传上去(或者使用git 克隆)1.2.1.1 克隆librdkafka对应的依赖到本地1.2.1.2 克隆Nginx Kafka Module对应的依赖到本地1.3 进入到librdkafka-master目录1.4 进入到nginx源码目录1....原创 2019-09-02 20:30:21 · 520 阅读 · 0 评论 -
数仓数据通道之用户行为搭建
采集通道系统架构集群规划服务名称子服务服务器hadoop102服务器 hadoop103服务器 hadoop104HDFSNameNode√DataNode√√√SecondaryNameNode√YarnNodeManager√√√Resourcemanager√Zookeeper...原创 2019-08-23 20:29:30 · 2372 阅读 · 0 评论 -
Spark累计器和广播变量
文章目录一 自定义累加器实现奇数和偶数分别相加1.1 确定累加器的输入和输出1.2 实现累加系统提供的AccumulatorV2的类1.3 编写测试类二 自定义累加器实现统计总数,最大数、最小数平均数2.1 累加器输入输出分析2.2 编写累加器类2.3 测试三 广播变量四 总结一 自定义累加器实现奇数和偶数分别相加需求描述:给定一个List集合,对list集合中的元素进行一次遍历统计出奇数和偶...原创 2019-09-19 14:11:31 · 253 阅读 · 0 评论 -
Spark-sql入门案例-wordcount
一描述对按照空格切分的文本文件中的内容进行解析,读取,按照单词进行统计,最后按照统计结果进行排序,保存到文件具体的步骤:初始化Spark-sql对象读取文件内容对一行的数据进行处理分组统计结果排序保存至文件二 数据准备三 环境准备新建spark-sql项目,导入pom依赖:<dependencies> <dependency> ...原创 2019-09-22 10:05:36 · 581 阅读 · 0 评论 -
spark操作文件、mysql、hbase
文章目录一读写文件二 读写至mysql2.1 从mysql中读取数据2.1.1 使用spark提供的JDBCRDD2.1.2 使用原生的JDBC连接数据库查询封装为RDD集合2.2 Spark批量写入数据到mysql三 读写至hbase四 读写至kafka一读写文件object ReadFileAndSaveAsFile { def main(args: Array[String]): U...原创 2019-10-05 12:01:11 · 159 阅读 · 0 评论 -
Spark-Streaming缓存计算结果,Wordcount累加求和
一 updateStateByKey函数声明:def updateStateByKey[S: ClassTag]( updateFunc: (Seq[V], Option[S]) => Option[S]): DStream[(K, S)]需求:对上次计算的结果进行缓存,在应用重启后,加载上次计算的结果,这里从scoket中读取流数据在这里插入代...原创 2019-10-05 11:59:47 · 1099 阅读 · 0 评论 -
Structured-Streaming编程练习知识点
一 source官网介绍:File sourcepath: path to the input directory, and common to all file formats. maxFilesPerTrigger: maximum number of new files to be considered in every trigger (default: no max) la...原创 2019-09-26 16:32:04 · 1826 阅读 · 0 评论 -
spark-streaming有状态转换计算
文章目录一 updateStateByKey二 window操作2.1 reduceByKeyAndWindow2.2 reduceByKeyAndWindow2.3 window(windowLength, slideInterval)2.4 countByWindow(windowLength, slideInterval)一 updateStateByKey操作允许在使用新信息不断更新状...原创 2019-09-24 20:29:17 · 759 阅读 · 0 评论 -
spark-Streaming无状态转换Transform
transform 原语允许 DStream上执行任意的RDD-to-RDD函数。可以用来执行一些 RDD 操作, 即使这些操作并没有在 SparkStreaming 中暴露出来.该函数每一批次调度一次。其实也就是对DStream中的RDD应用转换。package com.gc.sparkStreaming.day01.transformimport kafka.serializer.S...原创 2019-09-24 18:54:27 · 389 阅读 · 0 评论 -
spark-Streaming整合kafka手动维护offset_wordcount
package com.gc.sparkStreaming.day01import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport org.apache.kafka.clients.consumer.Consum...原创 2019-09-24 18:35:53 · 767 阅读 · 0 评论 -
Spark-sql与hive进行整合(代码中操作hive)
文章目录一环境准备pom依赖二 代码编写三 在此基础上基于二对表userinfo中的数据进行指标计算三 总结一环境准备在代码中访问hive需要导入hive的依赖和jdbc依赖需要hive的配置文件,否则默认访问的是自带的hivespark-shell 中默认是开启支持hive的,在本地代码中没有开启,需手动开启pom依赖<dependencies> <de...原创 2019-09-22 17:12:30 · 742 阅读 · 0 评论 -
spark-sql自定义UDAF函数
文章目录一需求分析二 自定义UDAF实现三测试一需求分析读输入的数据进行聚合,对给出的集合元素进行累加和求平均值,返回计算后的结果二 自定义UDAF实现import java.text.DecimalFormatimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregat...原创 2019-09-22 10:56:10 · 418 阅读 · 0 评论 -
hive 自定义UDF和UDTF函数解析事件
一 数据样例1566461617106|{ "cm":{ "ln":"-96.6", "sv":"V2.1.6", "os":"8.1.3", "g":"REX44511@gmail.com", "mid":"992", "nw":"WIFI", "l":"pt", ...原创 2019-08-24 18:11:36 · 999 阅读 · 0 评论