得过且过1223
码龄16年
关注
提问 私信
  • 博客:31,637
    31,637
    总访问量
  • 56
    原创
  • 346,955
    排名
  • 5
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2009-03-11
博客简介:

dgqg1223

博客描述:
一个程序老菜鸟的学习笔记
查看详细资料
个人成就
  • 获得7次点赞
  • 内容获得1次评论
  • 获得52次收藏
  • 代码片获得837次分享
创作历程
  • 60篇
    2020年
成就勋章
TA的专栏
  • Scala
    2篇
  • GoLang
  • Kubernetes
    4篇
  • 练习题
    1篇
  • Python
    1篇
  • Docker
    2篇
  • 大数据
    28篇
  • Sqoop
  • Ketter
  • Spark
    9篇
  • Flink
  • Kettle
    1篇
  • Nginx
    2篇
  • Hadoop
    11篇
  • Hive
    10篇
  • Kafka
    4篇
  • 项目笔记
    1篇
  • Flume
    3篇
  • 数仓
  • Java
    2篇
  • 多线程
  • 基础知识点
    1篇
  • 设计模式
    1篇
  • 系统工具
  • Unix/Linux
    2篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

345人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Canal Scala API Demo

原理官方网站canal 模拟 MySQL slave 的交互协议,伪装自己为 MySQL slave ,向 MySQL master 发送dump 协议MySQL master 收到 dump 请求,开始推送 binary log 给 slave (即 canal )canal 解析 binary log 对象(原始为 byte 流)当前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x安装mysql canall
原创
发布博客 2020.10.01 ·
291 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

SparkStreaming自定义数据源(即接收器)

自定义数据源(即接收器)实现接收sockey的接收器 集成Receiver抽象类 ,具体使用细节可查看Receiver 代码中注释部分有详细说明onStart启动一个子线程来结束数据接收到的数据通过调用store(data)传递给其他执行器进行处理如果发生异常,会重启接收器(按照顺序调用onStop,onStart)onStop释放资源package com.chen.sparksteaming.apiimport java.io.{BufferedReader, Inp
原创
发布博客 2020.08.27 ·
389 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkSql自定义强类型、弱类型聚合函数

自定义弱类型package com.chen.sparksql.funcimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{DataType, DoubleType, LongType, StructField, StructType}import org.apache.spark.sql.
原创
发布博客 2020.08.25 ·
496 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark广播变量与累加器

累加器解决了在Driver端创建的变量在Task中修改但最终不会修改Driver端的变量(Task修改的只是副本,不会同步回Execute)解决了共享变量写的问题当需要一个累加变量时,再Driver 定义作为计数的变量,会复制到Executor中RDD执行时候通过代码对其进行累加,但是结果不会被收集回Driver中,使用累加器可以把Executor的变量值收集回Driver并进行累加注意:累加器再Driver端定义初始化。1.6版本在Excutor不能使用.value 获取累加器的值Demoi
原创
发布博客 2020.08.23 ·
168 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark分区器:HashParititioner、RandPartitioner、自定义分区器

HashParititioner聚合算子默认分区器 通过hash值分区RandPartitioner范围分区器排序类算子默认分区器使用水塘抽样算法(抽样概率相同),对数据进行抽样来划分数据边界数组:数组长度由分区数决定,通过水塘抽样计算出数据切分的范围 存放在边界数组中源码:/*** A [[org.apache.spark.Partitioner]] that partitions sortable records by range into roughly* equal range
原创
发布博客 2020.08.20 ·
321 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark 使用 Kyro 序列化

序列化解决Driver端创建的对象 在Execute端传输问题方式一:使用Java Serializable接口【Spark默认】优点:简单,不需要额外的工作java自带,方便缺点:序列化速度慢序列化后size比较大hadoop中采取了自定义序列化 …Writable方式二: Kyro 第三方序列化【Spark支持】优点:序列化后的size 大概是Serializable 十分之一 val conf = new SparkConf().setAppName("Demo
原创
发布博客 2020.08.19 ·
277 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala之模式匹配

一句话解释类似java中switch ,比switch更强大,可以匹配类型基本使用格式:要匹配的值 match {case 选项 => 操作} val a = 10 val b = 20 val op: String = StdIn.readLine("请输入一个运算符:") val result:Int = op match { case "+" => a + b case "-" =>
原创
发布博客 2020.08.18 ·
100 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala之偏函数

一句话解释只对于偏爱的值进行处理,其他值不进行处理定义偏函数定义方式一【不推荐该方式】 val list1 = List(1, 2, 3, "a", true) // 实现 PartialFunction[输入类型,输出类型]{} val f = new PartialFunction[Any, Int] { // 只对返回true的时候交给apply处理 override def isDefinedAt(x: Any): Boolean = x.
原创
发布博客 2020.08.18 ·
163 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark 基础知识点、三种模式安装

环境说明centos 7.5spark-2.1.1Spark 内置模块[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4F5IqC5c-1597227561772)(spark知识点/New Mockup 1.png)]Spark local 模式安装直接解压即可,无需配置(spark-2.1.1-bin-hadoop2.7.tgz 集成hadoop环境包 )local 模式下测试# 提交任务 使用spark案例 计算pibin/spark-submit -
原创
发布博客 2020.08.12 ·
468 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive函数Demo3:排序函数

/*数据集孙悟空 语文 87孙悟空 数学 95孙悟空 英语 68大海 语文 94大海 数学 56大海 英语 84宋宋 语文 64宋宋 数学 86宋宋 英语 84婷婷 语文 65婷婷 数学 85婷婷 英语 78*/-- 创建表create table score(name string,subject string,score int)row format delimited fields terminated by "\t";--导入数据load data
原创
发布博客 2020.08.07 ·
145 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive函数之窗口(开窗)函数

官方介绍LanguageManual WindowingAndAnalytics一句话解释开窗作用使用开窗函数可以在一个select语句中且不使用子查询的情况下,显示同一指标不同维度的数据。(这么说虽然片面,但是便于理解,实际开窗函数的作用远远超出该描述,具体请看下面案例理解)开窗函数格式格式:over(partition by 要分组字段**,order by** 要排序的字段 window_clause)其中 partition by ,order by ,window_clause 均为可
原创
发布博客 2020.08.07 ·
974 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive函数Demo2:字符串拼接函数、炸裂函数、侧写、行专列、列转行

/* 相关函数*/-- 拼接字符串,输入多个字符串select concat('a','b','c');-- 拼接字符串并指定分隔符select concat_ws(',','a','b','c');-- 炸裂函数 拆分数组为一行多列 map为2行多列select explode(array('a','b','c'));-- 侧写 用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias-- 解释 用于和split, ex
原创
发布博客 2020.08.06 ·
953 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Hive函数Demo1:基础常用函数

-- 查看说明desc function extended 函数名/**/。-- 返回时间戳select unix_timestamp();select unix_timestamp('2019-01-01 01:01:01');select unix_timestamp('20190101 010101','yyyyMMdd HHmmss');-- 时间戳转时间select from_unixtime(1546304461,'yyyy-MM-dd HH:mm:ss');-- 返回当
原创
发布博客 2020.08.06 ·
149 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive自定义UDF&UDTF函数

pom.xml <properties> <project.build.sourceEncoding>UTF8</project.build.sourceEncoding> <hive.version>1.2.1</hive.version> </properties> <repositories> <repository>
原创
发布博客 2020.08.03 ·
401 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive安装Tez计算引擎

环境CentOS 7hive 1.2.1apache-tez-0.9.1安装步骤上传taz到hdfs中hadoop fs -mkdir /tezhadoop fs -put apache-tez-0.9.1-bin.tar.gz /tez解压缩tar -zxvf apache-tez-0.9.1-bin.tar.gz -C /opt修改名称mv /opt/apache-tez-0.9.1-bin /opt/tez-0.9.1在hive/conf目录下创建tez-
原创
发布博客 2020.07.30 ·
221 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka 资料

https://www.cnblogs.com/huxi2b/p/6223228.html
转载
发布博客 2020.07.23 ·
120 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume之JMX监控三种方式

监控作用在flume运行期间,我们可以通过监控channel当前容量和已使用容量来调整channel是否需要扩容通过source向channel中put成功了多少event和sink从channel中take成功了多少个event,比较数据是否存在积压做出调整(通过sink组,和batchsize参数可增加sink读取速度)监控原理通过Java提供的JMX技术(java monitor extension)即 java监控扩展模块,是J2EE定义的14种技术规范之一。JMX可以帮助我们监控一个
原创
发布博客 2020.07.22 ·
1297 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume自定义source、interceptor、sink

官方文档SourceSinkMaven 依赖<dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.7.0</version></dependency>自定义Source代码import org.apache.flume.Con
原创
发布博客 2020.07.22 ·
161 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka 自带测试脚本进行性能测试

压力测试用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。producer 压力测试bin/kafka-producer-perf-test.sh --topic test --record-size 100 --num-records 100000 --throughput 1000 --producer-props bootstrap.servers=dw-node01:9092,dw-node0
原创
发布博客 2020.07.20 ·
448 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Kafka辅助工具:KafkaManager、KafkaMonitor、KafkaTool

Kafka 辅助工具目前主流有3中 Kafka辅助工具KafkaManagerKafkaMonitorKafkaToolKafkaManagerhttps://github.com/yahoo/CMAK解压 kafka-manager-1.3.3.22.zip修改conf/application.confkafka-manager.zkhosts= 为 zookepper地址编写启动脚本nohup /opt/kafka-manager-1.3.3.22/bin/kafka-ma
原创
发布博客 2020.07.20 ·
634 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多