自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

tianyeshiye

天之道,损有余而补不足.人之道,则不然,损不足以奉有余.孰能有余以奉天下?唯有道者

  • 博客(22)
  • 收藏
  • 关注

原创 大数据框架、概念等 简短总结 (持续总结中)

数据仓库 更关注数据分析层面(OLAP)一次写入、多次读取HDFS 分布式文件系统HDFS适合批处理场景,不支持数据随机查找,不适合增量数据处理且不支持数据更新Habse分布式文件系统的动态查询,HDFS的随机读写操作HBase并不适合传统的事物处理程序或关联分析,不支持复杂查询Hive分布式文件系统的类SQL 查询Hive不是为在线事务处理而设计Spa...

2018-08-29 23:30:56 478

转载 【Big Data 每日一题20180831】Spark 的 task 数据 locality?

在Spark Application Web UI的 Stages tag 上,tasks 的一些信息,其中 Locality Level 一栏的值可以有 PROCESS_LOCAL: 数据在同一个 JVM 中,即同一个 executor 上。这是最佳数据 locality。 NODE_LOCAL: 数据在同一个节点上。比如数据在同一个节点的另一个 executor上;或在 HDF...

2018-08-28 23:50:11 111

转载 【Big Data 每日一题20180830】Metrics 入门教程 关于 Metrics ?

Metrics,谷歌翻译就是度量的意思。当我们需要为某个系统某个服务做监控、做统计,就需要用到Metrics。举个栗子,一个图片压缩服务:每秒钟的请求数是多少(TPS)? 平均每个请求处理的时间? 请求处理的最长耗时? 等待处理的请求队列长度?又或者一个缓存服务:缓存的命中率? 平均查询缓存的时间?基本上每一个服务、应用都需要做一个监控系统,这需要尽量以少量的代码,实现统计...

2018-08-28 23:42:49 401

原创 【Big Data 每日一题20180829】Spark on Yarn 的两种运行模式?

cluster模式:Driver程序在YARN中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如HDFS、Redis、Mysql)而非stdout输出的应用程序,客户端的终端显示的仅是作为YARN的job的简单运行状况。client模式:Driver运行在Client上,应用程序运行结果会在客户端显示,所有适合运行结果有输出的应用程序(如spark-she...

2018-08-28 23:39:20 143

转载 【Big Data 每日一题20180828】Maven 中 jar 包的 Snapshot 和 Release 版本区别

概念这两个概念是用于描述 jar 包,jar 包 提供给其他系统作为依赖 snapshot 版本代表不稳定、尚处于开发中的版本,即快照版本 release 版本代表功能趋于稳定、当前更新停止,可以用于发行的版本使用场景依赖库中的 jar 包若处于不断更新,更准确的说是不停 deploy 时,deploy会发布到私服,则使用snapshot 格式:<version>1....

2018-08-28 23:27:33 632

原创 【Big Data 每日一题20180827】linux 管道命令 与 管道通信

管道命令  https://blog.csdn.net/tq384998430/article/details/54925742linux 管道  通信https://www.cnblogs.com/davidwang456/p/3839874.htmlLinux进程间通信(IPC)编程实践(一) 基本概念和匿名管道https://blog.csdn.net/NK_test/a...

2018-08-27 22:27:24 129

转载 Spark Structured Stream的流关联(Stream-Stream Joins)

自Spark 2.3开始,Spark Structured Streaming开始支持Stream-stream Joins。两个流之间的join与静态的数据集之间的join有一个很大的不同,那就是,对于流来说,在任意时刻,在join的两边(也就是两个流上),数据都是“不完全”的,当前流上的任何一行数据都可能会和被join的流上的未来某行数据匹配到,为此,Spark必须要缓存流上过去所有的输入,以...

2018-08-27 22:18:00 483

原创 待编辑【Big Data 每日一题20180826】linux ?

【Big Data 每日一题20180826】linux ?

2018-08-26 23:11:07 91

原创 待编辑【Big Data 每日一题20180825】linux ?

【Big Data 每日一题20180825】linux ?

2018-08-25 22:38:13 92

原创 【Big Data 每日一题20180824】Linux传统Huge Pages与Transparent Huge Pages ????

Linux传统Huge Pages与Transparent Huge Pages

2018-08-23 23:02:07 122

原创 【Big Data 每日一题20180823】Linux 中 ulimit 作用

作用Linux对于每个用户,系统限制其最大进程数。为提高性能,可以根据设备资源情况,设置各linux 用户的最大进程数。ulimit主要是用来限制进程对资源的使用情况的,它支持各种类型的限制,常用的有:内核文件的大小限制 进程数据块的大小限制 Shell进程创建文件大小限制 可加锁内存大小限制 常驻内存集的大小限制 打开文件句柄数限制 分配堆栈的最大大小限制 CPU占用时...

2018-08-22 23:18:25 138

转载 【Big Data 每日一题20180822】Java动态编译优化——URLClassLoader 内存泄漏问题解决

转 https://blog.csdn.net/shijing266/article/details/81939477一、动态编译案例要说动态编译内存泄漏,首先我们先看一个案例(网上搜动态编译的资料是千篇一律,只管实现功能,不管内存泄漏,并且都恬不知耻的标识为原创!!)Java  URLClassLoader 动态编译案例:https://blog.csdn.net/huangshan...

2018-08-22 23:11:22 1866

转载 【Big Data 每日一题20180821】Spark中ml和mllib的区别

Spark中ml和mllib的主要区别和联系如下:ml和mllib都是Spark中的机器学习库,目前常用的机器学习功能2个库都能满足需求。 spark官方推荐使用ml, 因为ml功能更全面更灵活,未来会主要支持ml,mllib很有可能会被废弃(据说可能是在spark3.0中deprecated)。 ml主要操作的是DataFrame, 而mllib操作的是RDD,也就是说二者面向的数据集不...

2018-08-21 22:31:03 132

原创 待编辑【Big Data 每日一题20180820】

【Big Data 每日一题20180820】

2018-08-21 22:29:08 220

原创 待编辑【Big Data 每日一题20180819】 ?

待编辑【Big Data 每日一题20180819】 ?

2018-08-19 23:55:58 134

原创 待编辑【Big Data 每日一题20180818】 journal node 作用?

待编辑【Big Data 每日一题20180818】 journal node 作用?

2018-08-18 23:24:05 154

原创 待编辑【Big Data 每日一题20180817】 多版本并发控制是什么?

【Big Data 每日一题20180817】 多版本并发控制是什么?

2018-08-17 22:31:42 111

原创 【Big Data 每日一题20180816】 数组为什么比list 效率高?

1、寻址操作次数链表要多一些。数组只需对 [基地址+元素大小*k] 就能找到第k个元素的地址,对其取地址就能获得该元素。链表要获得第k个元素,首先要在其第k-1个元素寻找到其next指针偏移,再将next指针作为地址获得值,这样就要从第一个元素找起,多了多步寻址操作,当数据量大且其它操作较少时,这就有差距了。2、CPU缓存会把一片连续的内存空间读入,因为数组结构是连续的内存地址,所以数组全部或...

2018-08-15 23:44:51 742

原创 【Big Data 每日一题】目录

Spark【Big Data 每日一题】Spark开发性能调优总结【Big Data 每日一题20180821】Spark中ml和mllib的区别?【Big Data 每日一题20180828】Maven 中 jar 包的 Snapshot 和 Release 版本区别?【Big Data 每日一题20180829】Spark on Yarn 的两种运行模式?【Big Data...

2018-08-15 23:43:06 239

原创 【Big Data 每日一题20180815】 HBase 与 zookeeper 之间的关系?

Zookeeper主要管理Hadoop集群中的NameNode,HBase中HBaseMaster的选举,Servers之间状态同步等。具体一点,细一点说,单只HBase中ZooKeeper实例负责的工作就有:存储HBase的Schema,实时监控HRegionServer,存储所有Region的寻址入口,当然还有最常见的功能就是保证HBase集群中只有一个Master。...

2018-08-14 22:02:41 473

原创 【Big Data 每日一题20180814】hadoop中有几个文件,spark就会有几个Partition么?

spark中的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为B...

2018-08-14 21:56:34 464

转载 Mark :Spark Streaming 反压(Back Pressure)机制介绍

背景在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开始出现数据堆积,...

2018-08-01 21:18:12 580 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除