- 博客(22)
- 收藏
- 关注
原创 大数据框架、概念等 简短总结 (持续总结中)
数据仓库 更关注数据分析层面(OLAP)一次写入、多次读取HDFS 分布式文件系统HDFS适合批处理场景,不支持数据随机查找,不适合增量数据处理且不支持数据更新Habse分布式文件系统的动态查询,HDFS的随机读写操作HBase并不适合传统的事物处理程序或关联分析,不支持复杂查询Hive分布式文件系统的类SQL 查询Hive不是为在线事务处理而设计Spa...
2018-08-29 23:30:56 478
转载 【Big Data 每日一题20180831】Spark 的 task 数据 locality?
在Spark Application Web UI的 Stages tag 上,tasks 的一些信息,其中 Locality Level 一栏的值可以有 PROCESS_LOCAL: 数据在同一个 JVM 中,即同一个 executor 上。这是最佳数据 locality。 NODE_LOCAL: 数据在同一个节点上。比如数据在同一个节点的另一个 executor上;或在 HDF...
2018-08-28 23:50:11 111
转载 【Big Data 每日一题20180830】Metrics 入门教程 关于 Metrics ?
Metrics,谷歌翻译就是度量的意思。当我们需要为某个系统某个服务做监控、做统计,就需要用到Metrics。举个栗子,一个图片压缩服务:每秒钟的请求数是多少(TPS)? 平均每个请求处理的时间? 请求处理的最长耗时? 等待处理的请求队列长度?又或者一个缓存服务:缓存的命中率? 平均查询缓存的时间?基本上每一个服务、应用都需要做一个监控系统,这需要尽量以少量的代码,实现统计...
2018-08-28 23:42:49 401
原创 【Big Data 每日一题20180829】Spark on Yarn 的两种运行模式?
cluster模式:Driver程序在YARN中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如HDFS、Redis、Mysql)而非stdout输出的应用程序,客户端的终端显示的仅是作为YARN的job的简单运行状况。client模式:Driver运行在Client上,应用程序运行结果会在客户端显示,所有适合运行结果有输出的应用程序(如spark-she...
2018-08-28 23:39:20 143
转载 【Big Data 每日一题20180828】Maven 中 jar 包的 Snapshot 和 Release 版本区别
概念这两个概念是用于描述 jar 包,jar 包 提供给其他系统作为依赖 snapshot 版本代表不稳定、尚处于开发中的版本,即快照版本 release 版本代表功能趋于稳定、当前更新停止,可以用于发行的版本使用场景依赖库中的 jar 包若处于不断更新,更准确的说是不停 deploy 时,deploy会发布到私服,则使用snapshot 格式:<version>1....
2018-08-28 23:27:33 632
原创 【Big Data 每日一题20180827】linux 管道命令 与 管道通信
管道命令 https://blog.csdn.net/tq384998430/article/details/54925742linux 管道 通信https://www.cnblogs.com/davidwang456/p/3839874.htmlLinux进程间通信(IPC)编程实践(一) 基本概念和匿名管道https://blog.csdn.net/NK_test/a...
2018-08-27 22:27:24 129
转载 Spark Structured Stream的流关联(Stream-Stream Joins)
自Spark 2.3开始,Spark Structured Streaming开始支持Stream-stream Joins。两个流之间的join与静态的数据集之间的join有一个很大的不同,那就是,对于流来说,在任意时刻,在join的两边(也就是两个流上),数据都是“不完全”的,当前流上的任何一行数据都可能会和被join的流上的未来某行数据匹配到,为此,Spark必须要缓存流上过去所有的输入,以...
2018-08-27 22:18:00 483
原创 【Big Data 每日一题20180824】Linux传统Huge Pages与Transparent Huge Pages ????
Linux传统Huge Pages与Transparent Huge Pages
2018-08-23 23:02:07 122
原创 【Big Data 每日一题20180823】Linux 中 ulimit 作用
作用Linux对于每个用户,系统限制其最大进程数。为提高性能,可以根据设备资源情况,设置各linux 用户的最大进程数。ulimit主要是用来限制进程对资源的使用情况的,它支持各种类型的限制,常用的有:内核文件的大小限制 进程数据块的大小限制 Shell进程创建文件大小限制 可加锁内存大小限制 常驻内存集的大小限制 打开文件句柄数限制 分配堆栈的最大大小限制 CPU占用时...
2018-08-22 23:18:25 138
转载 【Big Data 每日一题20180822】Java动态编译优化——URLClassLoader 内存泄漏问题解决
转 https://blog.csdn.net/shijing266/article/details/81939477一、动态编译案例要说动态编译内存泄漏,首先我们先看一个案例(网上搜动态编译的资料是千篇一律,只管实现功能,不管内存泄漏,并且都恬不知耻的标识为原创!!)Java URLClassLoader 动态编译案例:https://blog.csdn.net/huangshan...
2018-08-22 23:11:22 1866
转载 【Big Data 每日一题20180821】Spark中ml和mllib的区别
Spark中ml和mllib的主要区别和联系如下:ml和mllib都是Spark中的机器学习库,目前常用的机器学习功能2个库都能满足需求。 spark官方推荐使用ml, 因为ml功能更全面更灵活,未来会主要支持ml,mllib很有可能会被废弃(据说可能是在spark3.0中deprecated)。 ml主要操作的是DataFrame, 而mllib操作的是RDD,也就是说二者面向的数据集不...
2018-08-21 22:31:03 132
原创 待编辑【Big Data 每日一题20180818】 journal node 作用?
待编辑【Big Data 每日一题20180818】 journal node 作用?
2018-08-18 23:24:05 154
原创 待编辑【Big Data 每日一题20180817】 多版本并发控制是什么?
【Big Data 每日一题20180817】 多版本并发控制是什么?
2018-08-17 22:31:42 111
原创 【Big Data 每日一题20180816】 数组为什么比list 效率高?
1、寻址操作次数链表要多一些。数组只需对 [基地址+元素大小*k] 就能找到第k个元素的地址,对其取地址就能获得该元素。链表要获得第k个元素,首先要在其第k-1个元素寻找到其next指针偏移,再将next指针作为地址获得值,这样就要从第一个元素找起,多了多步寻址操作,当数据量大且其它操作较少时,这就有差距了。2、CPU缓存会把一片连续的内存空间读入,因为数组结构是连续的内存地址,所以数组全部或...
2018-08-15 23:44:51 742
原创 【Big Data 每日一题】目录
Spark【Big Data 每日一题】Spark开发性能调优总结【Big Data 每日一题20180821】Spark中ml和mllib的区别?【Big Data 每日一题20180828】Maven 中 jar 包的 Snapshot 和 Release 版本区别?【Big Data 每日一题20180829】Spark on Yarn 的两种运行模式?【Big Data...
2018-08-15 23:43:06 239
原创 【Big Data 每日一题20180815】 HBase 与 zookeeper 之间的关系?
Zookeeper主要管理Hadoop集群中的NameNode,HBase中HBaseMaster的选举,Servers之间状态同步等。具体一点,细一点说,单只HBase中ZooKeeper实例负责的工作就有:存储HBase的Schema,实时监控HRegionServer,存储所有Region的寻址入口,当然还有最常见的功能就是保证HBase集群中只有一个Master。...
2018-08-14 22:02:41 473
原创 【Big Data 每日一题20180814】hadoop中有几个文件,spark就会有几个Partition么?
spark中的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为B...
2018-08-14 21:56:34 464
转载 Mark :Spark Streaming 反压(Back Pressure)机制介绍
背景在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开始出现数据堆积,...
2018-08-01 21:18:12 580 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人