2020年08月_不爱吃鱼的馋猫

原创 linux 为什么要关闭防火墙selinux，Linux下的防火墙用什么命令打开？

一、SELinux是什么？SELinux是一个复杂的安全子bai系统，它可以控制程du序只访问一定数量的文zhi件，使用学位设置工具进入对角dao化关闭。二、linux 为什么要关闭防火墙selinux？一般安装linux课程时都把SELinux与iptables安排在后面，使初学者配置linux服务器时不成功，却没有头绪，那是因为在RedHat linux操作系统中默认开启了防火墙，SELinux也处于启动状态，一般状态为enforing。致使很多服务端口默认是关闭的。所以好多服务初学者明明配

2020-08-30 15:50:11 3313 1

转载 Delta Lake：高效事务表（ACID Table）进行云对象存储（overCloud Object Stores）

【本文转载自过往记忆：方便日后不输验证码学习】最近，数砖大佬们给 VLDB 投了一篇名为《Delta Lake: High-Performance ACID Table Storage overCloud Object Stores》的论文，并且被 VLDB 收录了，这是第一篇比较系统介绍数砖开发Delta Lake的论文。随着云对象存储（Cloud object stores）的普及，因为其廉价的成本，越来越多的企业都选择对象存储作为其海量数据的存储引擎。但是由于对象存储的特点，其主要有两个比..

2020-08-27 21:10:17 884

转载程序员必读书籍——成为大神

很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数 Top 10的书。其实除了前10本之外，推荐数前30左右的书籍都算经典，笔者整理编译这个问答贴，同时摘译部分推荐人的评语。下面就按照各本书的推荐数排列。1. 《代码大全》史蒂夫·迈克康奈尔推荐数：1684“优秀的编程实践的百科全书，《代码大全》注重个人技术，其中所有东西加起来，就是我们本能所说的“编写整洁的代码”。这本书有50页在谈论代码布局。” —— Joel Spolsky对于新手来说，这.

2020-08-26 17:42:17 212

原创 Flume参数调优

一、Flume事务1.事务机制Flume的事务机制（类似数据库的事务机制）：Flume使用两个独立的事务分别负责从Soucrce到Channel，以及从Channel到Sink的事件传递。比如spooling directory source 为文件的每一行创建一个事件，一旦事务中所有的事件全部传递到Channel且提交成功，那么Soucrce就将该文件标记为完成。同理，事务以类似的方式处理从Channel到Sink的传递过程，如果因为某种原因使得事件无法记录，那么事务将会回滚。且所有的事件都会

2020-08-26 13:53:17 802

原创在linux中命令后面带参数“-”与“--”的区别

第一种：参数用一bai横的说明后面的参数是字符形式。du第二种：参数用两横的zhi说明后面的参数是单词dao形式。第三种：参数前有横的是 System V风格。第四种：参数前没有横的是 BSD风格。有关System V和BSD的其他区别：系统启动过程中 kernel 最后一步调用的是 init 程序，init 程序的执行有两种风格，即 System V 和 BSD。System V 风格中 init 调用 /etc/inittab，BSD 风格调用 /etc/rc，它们的目的相同，都是根据

2020-08-25 23:07:20 802

原创 Flume数据流监控--Ganglia

前言：Ganglia监控Flume比较鸡肋，花里花哨，页面也不好看，确实监控不到什么内容，因为根据Flume的架构原理，Flume是不可能丢失数据的，其内部有完善的事务机制，Source到Channel是事务性的，Channel到Sink是事务性的，因此这两个环节不会出现数据的丢失，唯一可能丢失数据的情况是Channel采用memoryChannel，agent宕机导致数据丢失，或者Channel存储数据已满，导致Source不再写入，未写入的数据丢失。Flume不会丢失数据，但是有可能造成数据的重复，

2020-08-25 20:09:36 372 2

原创一文详解、解决IDEA中Maven工程中没有src、targe、new时没有class等

今天在IDEA中新建了一个maven工程，发现没有src、targe等以及新建Class时发件右键菜单里竟然没有Java Class选项！解决方法一：点击右键->Mark Directory as Sources Root,可以出现，但是当刷新Maven依赖时src、targe又会消失，这个方法不好。解决方法二：下图这个位置改为project，但是发现目录结构是出现了，但是发现不能new packages 或者 new class等，不行。解决方法三：找了一个小时，终于找到了正确的

2020-08-21 15:04:29 1444

原创一文秒懂Hive的两个组件Hiveserver2和Metastore server访问元数据的关系？及Cli命令行和beeline的关系

Hive不是数据库，不是数据库，不是数据库！一、Hive架构原理1）用户接口：ClientCLI（command-lineinterface）、JDBC/ODBC(jdbc访问hive)、WEBUI（浏览器访问hive）2）元数据：Metastore元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore3）Hadoop使.

2020-08-17 21:11:19 5492 1

原创 Hadoop - MapRedcue支持的压缩编码、压缩方式选择、压缩位置选择及参数配置

一、为什么要使用压缩？压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时，I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间，尤其是数据规模很大和工作负载密集的情况下，因此，使用数据压缩显得非常重要。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源，数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。不过，尽管压缩与解压操作的CPU开销不高，其性能的提升和资源的节省并非没.

2020-08-14 20:49:54 373

不爱吃鱼的馋猫

原创 linux 为什么要关闭防火墙selinux，Linux下的防火墙用什么命令打开？

转载 Delta Lake：高效事务表（ACID Table）进行云对象存储（overCloud Object Stores）

转载程序员必读书籍——成为大神

原创 Flume参数调优

原创在linux中命令后面带参数“-”与“--”的区别

原创 Flume数据流监控--Ganglia

原创一文详解、解决IDEA中Maven工程中没有src、targe、new时没有class等

原创一文秒懂Hive的两个组件Hiveserver2和Metastore server访问元数据的关系？及Cli命令行和beeline的关系

原创 Hadoop - MapRedcue支持的压缩编码、压缩方式选择、压缩位置选择及参数配置

原创 Hadoop小文件优化方法

原创 MapReduce优化方法

原创 Hadoop - MapReduce - YARN常用调优参数

原创 HDFS的产生背景、储存的优缺点及组成架构

空空如也

空空如也