2018年08月_天地不仁以万物为刍狗

原创大数据框架、概念等简短总结 (持续总结中)

数据仓库更关注数据分析层面（OLAP）一次写入、多次读取HDFS 分布式文件系统HDFS适合批处理场景，不支持数据随机查找，不适合增量数据处理且不支持数据更新Habse分布式文件系统的动态查询，HDFS的随机读写操作HBase并不适合传统的事物处理程序或关联分析，不支持复杂查询Hive分布式文件系统的类SQL 查询Hive不是为在线事务处理而设计Spa...

2018-08-29 23:30:56 478

转载【Big Data 每日一题20180831】Spark 的 task 数据 locality？

在Spark Application Web UI的 Stages tag 上，tasks 的一些信息，其中 Locality Level 一栏的值可以有 PROCESS_LOCAL: 数据在同一个 JVM 中，即同一个 executor 上。这是最佳数据 locality。 NODE_LOCAL: 数据在同一个节点上。比如数据在同一个节点的另一个 executor上；或在 HDF...

2018-08-28 23:50:11 111

转载【Big Data 每日一题20180830】Metrics 入门教程关于 Metrics ？

Metrics，谷歌翻译就是度量的意思。当我们需要为某个系统某个服务做监控、做统计，就需要用到Metrics。举个栗子，一个图片压缩服务：每秒钟的请求数是多少（TPS）？平均每个请求处理的时间？请求处理的最长耗时？等待处理的请求队列长度？又或者一个缓存服务：缓存的命中率？平均查询缓存的时间？基本上每一个服务、应用都需要做一个监控系统，这需要尽量以少量的代码，实现统计...

2018-08-28 23:42:49 401

原创【Big Data 每日一题20180829】Spark on Yarn 的两种运行模式？

cluster模式：Driver程序在YARN中运行，应用的运行结果不能在客户端显示，所以最好运行那些将结果最终保存在外部存储介质（如HDFS、Redis、Mysql）而非stdout输出的应用程序，客户端的终端显示的仅是作为YARN的job的简单运行状况。client模式：Driver运行在Client上，应用程序运行结果会在客户端显示，所有适合运行结果有输出的应用程序（如spark-she...

2018-08-28 23:39:20 143

转载【Big Data 每日一题20180828】Maven 中 jar 包的 Snapshot 和 Release 版本区别

概念这两个概念是用于描述 jar 包，jar 包提供给其他系统作为依赖 snapshot 版本代表不稳定、尚处于开发中的版本，即快照版本 release 版本代表功能趋于稳定、当前更新停止，可以用于发行的版本使用场景依赖库中的 jar 包若处于不断更新，更准确的说是不停 deploy 时，deploy会发布到私服，则使用snapshot 格式：<version>1....

2018-08-28 23:27:33 632

原创【Big Data 每日一题20180827】linux 管道命令与管道通信

管道命令 https://blog.csdn.net/tq384998430/article/details/54925742linux 管道通信https://www.cnblogs.com/davidwang456/p/3839874.htmlLinux进程间通信(IPC)编程实践（一）基本概念和匿名管道https://blog.csdn.net/NK_test/a...

2018-08-27 22:27:24 129

转载 Spark Structured Stream的流关联（Stream-Stream Joins）

自Spark 2.3开始，Spark Structured Streaming开始支持Stream-stream Joins。两个流之间的join与静态的数据集之间的join有一个很大的不同，那就是，对于流来说，在任意时刻，在join的两边（也就是两个流上），数据都是“不完全”的，当前流上的任何一行数据都可能会和被join的流上的未来某行数据匹配到，为此，Spark必须要缓存流上过去所有的输入，以...

2018-08-27 22:18:00 483

原创待编辑【Big Data 每日一题20180826】linux ?

【Big Data 每日一题20180826】linux ?

2018-08-26 23:11:07 91

原创待编辑【Big Data 每日一题20180825】linux ?

【Big Data 每日一题20180825】linux ?

2018-08-25 22:38:13 92

原创【Big Data 每日一题20180824】Linux传统Huge Pages与Transparent Huge Pages ????

Linux传统Huge Pages与Transparent Huge Pages

2018-08-23 23:02:07 122

原创【Big Data 每日一题20180823】Linux 中 ulimit 作用

作用Linux对于每个用户，系统限制其最大进程数。为提高性能，可以根据设备资源情况，设置各linux 用户的最大进程数。ulimit主要是用来限制进程对资源的使用情况的，它支持各种类型的限制，常用的有：内核文件的大小限制进程数据块的大小限制 Shell进程创建文件大小限制可加锁内存大小限制常驻内存集的大小限制打开文件句柄数限制分配堆栈的最大大小限制 CPU占用时...

2018-08-22 23:18:25 138

转载【Big Data 每日一题20180822】Java动态编译优化——URLClassLoader 内存泄漏问题解决

转 https://blog.csdn.net/shijing266/article/details/81939477一、动态编译案例要说动态编译内存泄漏，首先我们先看一个案例（网上搜动态编译的资料是千篇一律，只管实现功能，不管内存泄漏，并且都恬不知耻的标识为原创！！）Java URLClassLoader 动态编译案例：https://blog.csdn.net/huangshan...

2018-08-22 23:11:22 1866

转载【Big Data 每日一题20180821】Spark中ml和mllib的区别

Spark中ml和mllib的主要区别和联系如下：ml和mllib都是Spark中的机器学习库，目前常用的机器学习功能2个库都能满足需求。 spark官方推荐使用ml, 因为ml功能更全面更灵活，未来会主要支持ml，mllib很有可能会被废弃(据说可能是在spark3.0中deprecated）。 ml主要操作的是DataFrame, 而mllib操作的是RDD，也就是说二者面向的数据集不...

2018-08-21 22:31:03 132

原创待编辑【Big Data 每日一题20180820】

【Big Data 每日一题20180820】

2018-08-21 22:29:08 220

原创待编辑【Big Data 每日一题20180819】？

待编辑【Big Data 每日一题20180819】？

2018-08-19 23:55:58 134

原创待编辑【Big Data 每日一题20180818】 journal node 作用？

待编辑【Big Data 每日一题20180818】 journal node 作用？

2018-08-18 23:24:05 154

原创待编辑【Big Data 每日一题20180817】多版本并发控制是什么？

【Big Data 每日一题20180817】多版本并发控制是什么？

2018-08-17 22:31:42 111

原创【Big Data 每日一题20180816】数组为什么比list 效率高？

1、寻址操作次数链表要多一些。数组只需对 [基地址+元素大小*k] 就能找到第k个元素的地址，对其取地址就能获得该元素。链表要获得第k个元素，首先要在其第k-1个元素寻找到其next指针偏移，再将next指针作为地址获得值，这样就要从第一个元素找起，多了多步寻址操作，当数据量大且其它操作较少时，这就有差距了。2、CPU缓存会把一片连续的内存空间读入，因为数组结构是连续的内存地址，所以数组全部或...

2018-08-15 23:44:51 742

原创【Big Data 每日一题】目录

Spark【Big Data 每日一题】Spark开发性能调优总结【Big Data 每日一题20180821】Spark中ml和mllib的区别？【Big Data 每日一题20180828】Maven 中 jar 包的 Snapshot 和 Release 版本区别？【Big Data 每日一题20180829】Spark on Yarn 的两种运行模式？【Big Data...

2018-08-15 23:43:06 239

原创【Big Data 每日一题20180815】 HBase 与 zookeeper 之间的关系？

Zookeeper主要管理Hadoop集群中的NameNode，HBase中HBaseMaster的选举，Servers之间状态同步等。具体一点，细一点说，单只HBase中ZooKeeper实例负责的工作就有：存储HBase的Schema，实时监控HRegionServer,存储所有Region的寻址入口，当然还有最常见的功能就是保证HBase集群中只有一个Master。...

2018-08-14 22:02:41 473

原创【Big Data 每日一题20180814】hadoop中有几个文件，spark就会有几个Partition么？

spark中的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为B...

2018-08-14 21:56:34 464

转载 Mark ：Spark Streaming 反压（Back Pressure）机制介绍

背景在默认情况下，Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候，也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时间长；越来越多的数据被接收，但是数据的处理速度没有跟上，导致系统开始出现数据堆积，...

2018-08-01 21:18:12 580 2

tianyeshiye