以浪为码
码龄11年
关注
提问 私信
  • 博客:80,317
    社区:15,628
    95,945
    总访问量
  • 29
    原创
  • 596,785
    排名
  • 9
    粉丝
  • 0
    铁粉

个人简介:发篇博客以表牛逼。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2013-12-05
博客简介:

Henvealf的博客

查看详细资料
个人成就
  • 获得26次点赞
  • 内容获得8次评论
  • 获得22次收藏
创作历程
  • 1篇
    2020年
  • 10篇
    2019年
  • 4篇
    2017年
  • 29篇
    2016年
成就勋章
TA的专栏
  • Clickhouse
    1篇
  • 小浪阅读 Spark 源码
    3篇
  • Kafka
  • Spark Programing Guide 翻译
    7篇
  • Spark-翻译
    3篇
  • Spark-例子们
    2篇
  • Spark 调优
    1篇
  • MapReduce-集
    3篇
  • Hive
    12篇
  • YARN
    3篇
  • HBase
    1篇
  • HDFS-集
    1篇
  • 设计模式
    1篇
  • Spark-疑难杂症
    2篇
  • 工具
    1篇
  • Avro
    1篇
  • Spark源码阅读
    3篇
  • Docker
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Clickhouse 查询问题: int 类型判断等于0无结果

问题描述现有一张表, 两个字段:id String,num UInt64数据如下:id numa 123b 0c 123 执行找出 num 为 0 的查询,结果可能会为空:select * from test_table where num = 0解决方案num 修改为 toUInt64(num), 如下:select * from test_table where toUInt64(num) = 0原因猜测数据库存储为空,但查询时
原创
发布博客 2020.07.16 ·
2392 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

问题:001 如何在shutdownhook中优雅的 close kafka consumer

这之所以是个问题,是由于 consumer 的非线程安全的,他不被允许在多个线程中使用,所以直接在 shutdownHook线程 中调用 consumer 的 close() 方法,会抛出相关异常。java.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access ...
原创
发布博客 2019.09.19 ·
2120 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

[以浪为码]Spark源码阅读03 - 序列化介绍 serializer

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013054888/article/details/90237348系列文章专栏目录:小浪阅读 Spark 源码文章目录序列器 Serializer序列器的实现 `JavaSerializer`SerializerInstance 序列器实例序列器的实现 KryoSerializerSerial...
原创
发布博客 2019.06.10 ·
556 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

11 Docker 数据管理概述介绍

文章目录管理数据方式Volumes 卷Bind mounts 绑定挂载tmpfs mounts命令注意事项使用 Volumes 卷的案例bind mounts 绑定挂载较好的使用案例tmpfs 挂载的案例使用 bind mounts 或者 volumes 需要注意的事情管理数据方式三种管理方式:Volumes 卷:存储在主机上,且由 Docker 来管理(/var/lib/docker/...
翻译
发布博客 2019.06.06 ·
150 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

问题解决 docker stack 部署后 REPLICAS 为 0

原文 https://blog.csdn.net/u013054888/article/details/90741042问题描述使用 docker stack deploy -c docker-compose.yml xxx 执行部署后会发现服务并没有正常启动,REPLICAS 显示 为 0/1如下:➜ learn-docker-compose docker service lsID ...
原创
发布博客 2019.06.02 ·
5372 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

Spark Streaming 报错 NotSerializableException: org.apache.kafka.clients.consumer.ConsumerRecord

问题Spark Streaming 执行报错java.io.NotSerializableException: org.apache.kafka.clients.consumer.ConsumerRecord原因ConsumerRecord 没有实现序列化,在执行需要序列化的操作时,即 persist 或 window、print。会报错:解决推荐:在使用 persist 或 wi...
原创
发布博客 2019.05.14 ·
1396 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

[以浪为码]Spark源码阅读02 - RPC模块

Spark 的 RPC 模块是建立在 network 模块之上,虽然 network 提供了远程调用与数据流传输,但是 RPC 提供了更加方便的编程方式与性能提升。本文通过阅读 RPC 模块的代码,来了解其实现。
原创
发布博客 2019.05.11 ·
544 阅读 ·
2 点赞 ·
1 评论 ·
0 收藏

[以浪为码]Spark源码阅读01-网络传输 network

本文通过阅读 Spark 网络传输相关的代码,位置在包 `org.apache.spark.network` 中,来了解 Spark 对网络传输的实现。
原创
发布博客 2019.05.04 ·
777 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Spark 计算 - 实现分组求 TopN

问题抽象:找出分组内数据的 TopN。问题实例找出每个城市(province)应用点击数(click)排前5的人(name)。这里假定省内每个人的点击数以及计算好了。思路思路: 这里的名字只是附属属性,求每个省份最高的5个点击数即可。首先按照省份分组,在组内聚合求 top 5参考 top() 算子的实现方法,使用一个有固定长度(这里即5)的优先队列,每个组内迭代将元素add进优先队列中,最...
原创
发布博客 2019.04.25 ·
1259 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Spark Streaming checkpoint

英文原文2019-03checkpoint (检查点)用于恢复与处理与应用逻辑无关的故障,比如 system failures, JVM crashes。将足够的信息存储在可靠的存储中,使程序能够从故障中恢复。一共有两种类型的数据需要被存储为检查点:元数据检查点 - 存储streaming计算的定义到可靠的存储中,比如 HDFS。用于从故障中恢复运行 driver 的节点。元数据包括:...
翻译
发布博客 2019.03.27 ·
402 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

Spark Core - 提高 RDD join 的性能

Spark 作为分布式的计算框架,最为影响其执行效率的地方就是频繁的网络传输。所以一般的,在不存在数据倾斜的情况下,想要提高 Spark job 的执行效率,就尽量减少 job 的 shuffle 过程(减少 job 的 stage),或者退而减小 shuffle 带来的影响,join 操作也不例外。所以,针对 spark RDD 的 join 操作的使用,提供一下几条建议:尽量减少参与 j...
原创
发布博客 2019.02.11 ·
719 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Avro - 简单介绍,Java版 - 序列化与反序列化官方例子

Avro - 简单介绍,Java版 - 序列化与反序列化官方例子英文原文http://avro.apache.org/docs/1.7.7/gettingstartedjava.htmlHenvealfAvro 简单介绍数据序列化系统。丰富的数据结构类型;快速可压缩的二进制数据形式,对数据二进制序列化后可以节约数据存储空间和网络传输带宽;存储持久数据的文件容器;可以实现远程过程调用RPC;
翻译
发布博客 2017.03.21 ·
4044 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

去除 Hive 表中数据的引号 - Henvealf

问题说明有时第三方提供的,导入进 Hive 表中的数据会清洗的不彻底,这里要说的就是遗留引号(“) 的问题。比如 hive> select * from test;1 "tom" 1112 "cat" 2223 "jack" 3334 "hello" 444处理后为hive> select * from test;a b c1 tom 1112
原创
发布博客 2017.03.06 ·
15358 阅读 ·
4 点赞 ·
1 评论 ·
8 收藏

工具 - 合并 CSV 表格 结构树 - Henvealf

合并 CSV 表格 结构树工具作用有一个类似于树结构的 CSV 文件,而想要将一列中相同内容的许多单元格合并成一个单元格。比如 id name 1 a 1 c 1 b合并为依赖 <dependencies>
原创
发布博客 2017.03.06 ·
1749 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark-submit 报 NoClassDefFoundError 解决

spark-submit 报 NoClassDefFoundError 解决报错信息在使用 spark-submit 提交 scala App 的时候,报出了一下异常,而 代码就简单的调用了一下 map() 方法:Exception in thread "main" java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: sca
原创
发布博客 2017.01.18 ·
11615 阅读 ·
1 点赞 ·
4 评论 ·
4 收藏

设计模式 - 单例模式 - Java版

单例模式介绍(Singleton)单例模式的作用就是保证某个类的实例在系统中仅仅只会存在一个。实现: 将类的默认构造方法设置为私有,然后在类的一个静态方法中创建一个该类的静态实例。也就是由类自己来控制实例的创建,而客户端只能获取。 代码 Javapackage com.henvealf.designpatterns.singleton;/** * 单例模式。。。 * Created by
原创
发布博客 2016.12.17 ·
333 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

详解 MapReduce 在 Yarn 中的调度细节

本文为 《Hadoop The Definitive Guide 4th Edition》的读书笔记,仅限交流使用。剖析 MapReuce Job 的运行我们能够在 JOb 对象上调用一个submit()方法来运行一个 MapReduce job,你也能调用 waitFormCompletion() – 总是提交一了一个job后等待job的完成。这个方法隐藏了许多的执行细节。我们现在开看看他底层运
翻译
发布博客 2016.12.08 ·
1751 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS读写流程详解/剖析

HDFS读写流程剖析 本文为 《Hadoop The Definitive Guide 4th Edition》的读书笔记(或者叫翻译),仅限交流使用, 转载请注明出处。剖析读流程下面这个图片 3-2 总结性的描述了读文件时客户端与 HDFS 中的 namenode, datanode 之间的数据流动。客户端首先通过在 FileSystem 上调用 open() 方法打开它想要打开的文件, 对
原创
发布博客 2016.12.08 ·
595 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

详细口述 MapReduce Shuffle 过程

详细口述 MapReduce Shuffle 过程。Shuffle 是 MapReduce 的核心,被称为奇迹发生的地方。分为 map 端与 reduce 端。Map 端在 map 端, map task 的每次处理分片中的一条记录。task 输出的数据以及数据的索引首先会写到一块环形内存缓冲区里,缓冲区内一边是数据,一边是索引.当缓冲区中的数据超过阈值的时候,缓冲区中的索引与数据就要开始溢出
原创
发布博客 2016.12.08 ·
544 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase - Bloom Filter 简单理解

HBase - Bloom Filter 简单理解Bloom Filter 是一个过滤器,他提供了一个轻量级的 in-memeory 结构,来减少 Get 操作时读取磁盘文件的数量,只读取包含了要读取的行的文件。能大大的提高读取的效率。Bloom Filter 是使用位数组来表示的。初始状态的数组全为0。每个 HFile都会由一个与之联结 Bloom Filter位数组。Bloom Filter 会
原创
发布博客 2016.12.07 ·
1279 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多