tianyeshiye

天之道,损有余而补不足.人之道,则不然,损不足以奉有余.孰能有余以奉天下?唯有道者...

Spark Structured Stream的流关联(Stream-Stream Joins)

自Spark 2.3开始,Spark Structured Streaming开始支持Stream-stream Joins。两个流之间的join与静态的数据集之间的join有一个很大的不同,那就是,对于流来说,在任意时刻,在join的两边(也就是两个流上),数据都是“不完全”的,当前流上的任何一...

2018-08-27 22:18:00

阅读数:51

评论数:0

Mark :Spark Streaming 反压(Back Pressure)机制介绍

背景 在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 Spar...

2018-08-01 21:18:12

阅读数:93

评论数:0

个人讲义 - - - 心得与理解

大数据技术相关的个人讲义https://github.com/tianyeshiye/MyCourse

2018-07-05 22:55:23

阅读数:32

评论数:0

Mark:大数据最佳学习路线

挺全的: 记录一下一,题记要说当下IT行业什么最火?ABC无出其右。所谓ABC者,AI + Big Data + Cloud也,即人工智能、大数据和云计算(云平台)。每个领域目前都有行业领袖在引领前行,今天我们来讨论下大数据Big Data这个方向。二,大数据里面的角色角色一:大数据工程大数据工程...

2018-05-18 21:45:47

阅读数:38

评论数:1

Mark : Hadoop Raid-实战经验总结

分布式文件系统用于解决海量数据存储的问题,腾讯大数据采用 HDFS ( hadoop分布式文件系统)作为数据存储的基础设施,并在其上构建如 Hive 、 HBase 、Spark 等计算服务。  HDFS 块存储采用三副本策略来保证数据可靠性,随着数据量的不断增长,三副本策略为可靠性牺牲的存储空间...

2018-05-13 21:11:06

阅读数:119

评论数:0

Mark : MessagePack简介及使用

什么是MessagePack官方msgpack官网用一句话总结:It’s like JSON.but fast and small.简单来讲,它的数据格式与json类似,但是在存储时对数字、多字节字符、数组等都做了很多优化,减少了无用的字符,二进制格式,也保证不用字符化带来额外的存储空间的增加。以...

2018-05-10 20:55:09

阅读数:35

评论数:0

Mark : Java BitSet使用场景和示例

一、什么是BitSet?  注:以下内容来自JDK API:  BitSet类实现了一个按需增长的位向量。位Set的每一个组件都有一个boolean值。用非负的整数将BitSet的位编入索引。可以对每个编入索引的位进行测试、设置或者清除。通过逻辑与、逻辑或和逻辑异或操作,可以使用一个 BitSet...

2018-05-09 22:26:42

阅读数:52

评论数:0

Mark :Hive使用Spark on Yarn作为执行引擎

原文:http://lxw1234.com/archives/2016/05/673.htmHive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题:Hive的版本和Spark的版本要匹配;具体来说,你使用的Hive版...

2018-05-07 23:57:14

阅读数:566

评论数:0

Mark : Kafka分区机制介绍与示例

原文:http://lxw1234.com/archives/2015/10/538.htmKafka中可以将Topic从物理上划分成一个或多个分区(Partition),每个分区在物理上对应一个文件夹,以”topicName_partitionIndex”的命名方式命名,该文件夹下存储这个分区的...

2018-05-07 23:28:35

阅读数:24

评论数:0

Spark share 今天给team做的spark入门级分享

Spark 入门分享,如需文档请参照https://github.com/tianyeshiye/share-meeting

2018-04-30 22:12:41

阅读数:25

评论数:0

Mark:Spark RDD之Partition

概要Spark RDD主要由Dependency、Partition、Partitioner组成,Partition是其中之一。一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份,每份数据对应到RDD中的一个Partition,Partition的数量决定了...

2018-04-29 01:18:06

阅读数:24

评论数:0

Mark : Spark RDD 内部结构(二) RDD分区

RDD 分区分区先回答第一个问题:RDD 内部,如何表示并行计算的一个计算单元。答案是使用分区(Partition)。RDD 内部的数据集合在逻辑上和物理上被划分成多个小子集合,这样的每一个子集合我们将其称为分区,分区的个数会决定并行计算的粒度,而每一个分区数值的计算都是在一个单独的任务中进行,因...

2018-04-29 01:05:48

阅读数:28

评论数:0

总结 - Spark多线程 与 HadoopMapReduce多进程

总结 - Spark多线程 与 HadoopMapReduce多进程

2018-04-23 23:16:18

阅读数:53

评论数:0

待续 总结 - parquet 与 avro

paruet列存文件结构        可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量        压缩编码可以降低磁盘存储空间        只读取需要的列,支持向量运算,能够获取更好的扫描性能         Schema :Parquet文件尾部存储了文件的元数据信息和统计信息...

2018-04-23 21:31:29

阅读数:55

评论数:0

Mark : BlockingQueue在任务调度中的精彩应用

https://blog.csdn.net/bluishglc/article/details/78447813问题来了…我们正在构建的系统需要从外部第三方系统中采集数据,受不可控的外部环境的影响,我们的数据采集工作经常被阻塞,一种典型的情况是:某个目标数据库因为要同时处理多个外围系统叠加的查询请...

2018-04-16 21:16:54

阅读数:20

评论数:0

Mark : Spark文章 收录

Spark修炼之道(进阶篇)——Spark入门到精通:第十四节 Spark Streaming 缓存、Checkpoint机制https://blog.csdn.net/lovehuangjiaju/article/details/50102831Spark修炼之道(进阶篇)——Spark入门到精...

2018-04-16 00:21:18

阅读数:49

评论数:0

Mark : Scala 文章收录

Scala入门到精通——第十八节 隐式转换与隐式参数(一)https://blog.csdn.net/lovehuangjiaju/article/details/47264655Scala入门到精通——第十八节 隐式转换与隐式参数(二)https://blog.csdn.net/lovehuan...

2018-04-16 00:21:11

阅读数:19

评论数:0

Mark : Hadoop源码解析之: TextInputFormat如何处理跨split的行

https://blog.csdn.net/bluishglc/article/details/9380087我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理: 对输入数据进行切分,生成一组split,一个split会分发给一个mapper进行处理...

2018-04-15 22:07:17

阅读数:24

评论数:0

mark : 大数据环境安装列表

hadoop 2.2.0集群安装https://blog.csdn.net/bluishglc/article/details/24591185hbase 0.98.1集群安装  https://blog.csdn.net/bluishglc/article/details/24593597HIV...

2018-04-15 21:28:35

阅读数:21

评论数:0

Mark : Impala 教程

Impala 教程本章节包括演示当软件安装之后,如何开始使用 Impala 的教程场景。着重于介绍载入数据的技术,因为当已经有数据在表中并且可以查询这些数据,你可以快速接触到更高级的 Impala 功能。  Note: 实际上,本教程教你从“0”开始到拥有期望的 Impala 表与数据。某些情况下...

2018-04-07 15:34:58

阅读数:51

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭