自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 linux 为什么要关闭防火墙selinux,Linux下的防火墙用什么命令打开?

一、SELinux是什么?SELinux是一个复杂的安全子bai系统,它可以控制程du序只访问一定数量的文zhi件,使用学位设置工具进入对角dao化关闭。二、linux 为什么要关闭防火墙selinux?一般安装linux课程时都把SELinux与iptables安排在后面,使初学者配置linux服务器时不成功,却没有头绪,那是因为在RedHat linux操作系统中默认开启了防火墙,SELinux也处于启动状态,一般状态为enforing。致使很多服务端口默认是关闭的。所以好多服务初学者明明配

2020-08-30 15:50:11 3313 1

转载 Delta Lake:高效事务表(ACID Table)进行云对象存储(overCloud Object Stores)

【本文转载自过往记忆:方便日后不输验证码学习】最近,数砖大佬们给 VLDB 投了一篇名为《Delta Lake: High-Performance ACID Table Storage overCloud Object Stores》的论文,并且被 VLDB 收录了,这是第一篇比较系统介绍数砖开发Delta Lake的论文。随着云对象存储(Cloud object stores)的普及,因为其廉价的成本,越来越多的企业都选择对象存储作为其海量数据的存储引擎。但是由于对象存储的特点,其主要有两个比..

2020-08-27 21:10:17 884

转载 程序员必读书籍——成为大神

很多程序员响应,他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单,不过都是推荐数 Top 10的书。其实除了前10本之外,推荐数前30左右的书籍都算经典,笔者整理编译这个问答贴,同时摘译部分推荐人的评语。下面就按照各本书的推荐数排列。1. 《代码大全》史蒂夫·迈克康奈尔推荐数:1684“优秀的编程实践的百科全书,《代码大全》注重个人技术,其中所有东西加起来,就是我们本能所说的“编写整洁的代码”。这本书有50页在谈论代码布局。” —— Joel Spolsky对于新手来说,这.

2020-08-26 17:42:17 212

原创 Flume参数调优

一、Flume事务1.事务机制Flume的事务机制(类似数据库的事务机制):Flume使用两个独立的事务分别负责从Soucrce到Channel,以及从Channel到Sink的事件传递。比如spooling directory source 为文件的每一行创建一个事件,一旦事务中所有的事件全部传递到Channel且提交成功,那么Soucrce就将该文件标记为完成。同理,事务以类似的方式处理从Channel到Sink的传递过程,如果因为某种原因使得事件无法记录,那么事务将会回滚。且所有的事件都会

2020-08-26 13:53:17 802

原创 在linux中命令后面带参数“-”与“--”的区别

第一种:参数用一bai横的说明后面的参数是字符形式。du第二种:参数用两横的zhi说明后面的参数是单词dao形式。第三种:参数前有横的是 System V风格。第四种:参数前没有横的是 BSD风格。有关System V和BSD的其他区别:系统启动过程中 kernel 最后一步调用的是 init 程序,init 程序的执行有两种风格,即 System V 和 BSD。System V 风格中 init 调用 /etc/inittab,BSD 风格调用 /etc/rc,它们的目的相同,都是根据

2020-08-25 23:07:20 802

原创 Flume数据流监控--Ganglia

前言:Ganglia监控Flume比较鸡肋,花里花哨,页面也不好看,确实监控不到什么内容,因为根据Flume的架构原理,Flume是不可能丢失数据的,其内部有完善的事务机制,Source到Channel是事务性的,Channel到Sink是事务性的,因此这两个环节不会出现数据的丢失,唯一可能丢失数据的情况是Channel采用memoryChannel,agent宕机导致数据丢失,或者Channel存储数据已满,导致Source不再写入,未写入的数据丢失。Flume不会丢失数据,但是有可能造成数据的重复,

2020-08-25 20:09:36 372 2

原创 一文详解、解决IDEA中Maven工程中没有src、targe、new时没有class等

今天在IDEA中新建了一个maven工程,发现没有src、targe等以及新建Class时发件右键菜单里竟然没有Java Class选项!解决方法一:点击右键->Mark Directory as Sources Root,可以出现,但是当刷新Maven依赖时src、targe又会消失,这个方法不好。解决方法二:下图这个位置改为project,但是发现目录结构是出现了,但是发现不能new packages 或者 new class等,不行。解决方法三:找了一个小时,终于找到了正确的

2020-08-21 15:04:29 1444

原创 一文秒懂Hive的两个组件Hiveserver2和Metastore server访问元数据的关系?及Cli命令行和beeline的关系

Hive不是数据库,不是数据库,不是数据库!一、Hive架构原理1)用户接口:ClientCLI(command-lineinterface)、JDBC/ODBC(jdbc访问hive)、WEBUI(浏览器访问hive)2)元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;默认存储在自带的derby数据库中,推荐使用MySQL存储Metastore3)Hadoop使.

2020-08-17 21:11:19 5492 1

原创 Hadoop - MapRedcue支持的压缩编码、压缩方式选择、压缩位置选择及参数配置

一、为什么要使用压缩?压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。不过,尽管压缩与解压操作的CPU开销不高,其性能的提升和资源的节省并非没.

2020-08-14 20:49:54 373

原创 Hadoop小文件优化方法

一、Hadoop小文件弊端大象怕老鼠,Hadoop怕小文件。HDFS怕小文件:HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。【一般企业NN的内存为128GB,你觉得每次存1kb的文件合适吗?】MR怕小文件:小文件过多,在进行MR计算时,会生成过多切片,需要启动过多的MapTask。每个MapTask处理

2020-08-14 20:12:52 216

原创 MapReduce优化方法

一、MapReduce跑得慢的原因MapReduce程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络。 就如百度能通过增加服务器解决问题,绝对不麻烦程序猿,真好用的就是提升服务器性能,有钱可以用量子计算机、银河超算。2.I/O操作优化避免大量磁盘I/O以及网络I/O1)数据倾斜2)Map和Reduce数设置不合理3)Map运行时间太长,导致Reduce等待过久4)小文件过多。 Hadoop怕小不怕大,如不进行处理,每个小文件都会启动一个MapTask,申

2020-08-14 19:42:13 1012

原创 Hadoop - MapReduce - YARN常用调优参数

一、MapReduce跑得慢的原因MapReduce程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络。 就如百度能通过增加服务器解决问题,绝对不麻烦程序猿,真好用的就是提升服务器性能,有钱可以用量子计算机、银河超算。2.I/O操作优化避免大量磁盘I/O以及网络I/O1)数据倾斜2)Map和Reduce数设置不合理3)Map运行时间太长,导致Reduce等待过久4)小文件过多。 Hadoop怕小不怕大,如不进行处理,每个小文件都会启动一个MapTask,申

2020-08-14 19:10:28 238

原创 HDFS的产生背景、储存的优缺点及组成架构

一、HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。二、HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入

2020-08-10 08:47:34 619

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除