AntarcticPenguin-CSDN博客

linux系统包括4大部分Linux内核、Linux Shell、Linux应用程序、Linux文件系统每个部分的作用：内核（Kernel）是系统的心脏，实现操作系统的基本功能在硬件方面：控制硬件设备，内存管理，硬件接口，基本I/O在软件方面：管理文件系统，为程序分配内存和CPU时间等Shell是系统的用户界面，提供了用户与内核进行交互操作的一种接口Shell是一个命令...

2019-11-22 12:58:03 400

转载 Linux的启动流程

Linxu基本的系统架构：Linux启动流程加载BIOS　　打开计算机电源，计算机会首先加载BIOS信息，因为BIOS中包含了CPU的相关信息、设备启动顺序信息、硬盘信息、内存信息、时钟信息、PnP特性等等，此后，计算机就知道应该去读取哪个硬件设备读取MBR　　众所周知，硬盘上第0磁道第一个扇区被称为MBR(Master Boot Record)，即主引导记录，它的大小是512字节...

2019-11-22 12:47:57 167

原创 Sublime Text快捷操作

Mac操作系统和Windows操作系统快捷键差别较大打开文件后会自动识别文件类型（例如js文件）能在这里面打开图片Edit:复制一行，删除一行，Edit——》line——》duplicate line/delete line注释代码，Edit——》comment——》toggle comment直接进入下一行Edit——》Text——》insert line AfterSelect...

2019-10-30 22:19:40 339

原创 sublime Text3乱码处理插件

安装乱码处理插件：　　调用ctrl+shift+p,输入：install package，回车，在稍后弹出的安装包框中搜索：ConvertToUTF8或者GBK Encoding Support，选择点击安装；

2019-10-30 22:03:30 193

原创 idea的plugin插件

idea不同，里面搜索的到plugin插件版本是不一样的，idea内部安装不了就去网络查找自己idea中对应plugin插件版本进行安装

2019-10-30 21:52:36 271

原创 jupyter notebook theme settings

我的设置：jt -t oceans16 -f fira -fs 11 -cellw 60% -ofs 11 -dfs 11 -T -N设置效果：参考链接：https://www.cnblogs.com/tianqizhi/p/10612976.html

2019-10-30 14:32:07 411

原创 Linux命令行颜色美化

用户路径下执行命令：ls -lavi .bashrc添加：export PS1='\[\033[01;31m\]\u\[\033[00m\]@\[\033[01;32m\]\h\[\033[00m\][\[\033[01;33m\]\t\[\033[00m\]]:\[\033[01;34m\]\w\[\033[00m\]$ 'source .bashrc效果：...

2019-10-30 14:27:20 2004 1

原创数据分析之基础篇

前言：数据分析的应用：了解用户画像、为企业做留存率、流失率等指标分析，进而精细化产品运营预测比特币走势信用卡发欺诈、自动屏蔽垃圾邮件等高效的学习方法(MAS方法)：Multi-Dimension：多角度认识事物，进而掌握它Ask：不懂就问(突破这一点，同时也要兼顾“会问”)Sharing：最好的学习就是分享，用自己的语言讲出来，并对知识进一步梳理一、全景图以及修炼指南...

2019-10-28 19:01:00 1225

原创 Gradle

Gradle与Ant、Maven类似，是一种项目构建工具，之前使用的Eclipse是使用Ant来实现项目构建的。在AS中第一次创建项目的时候，会自动下载Gradle在AS中第一次创建项目的时候，会自动下载Gradle。不过对国外的网站，网速太慢。使用本地已经下载好的gradle版本：File->Settings->搜索gradle，默认下载路径为本机用户下的那个.gradle里面...

2019-10-26 14:20:00 81

原创对象内存分析

类本身属于引用类型，所以对于引用类型就必须为其进行内存分析，那么在分析之前，首先给出两块内存空间的概念：堆内存空间(Heap)：保存的是对象中具体的属性信息；栈内存空间(Stack)：是保存的堆内存的地址数值，所以现在可以简化一点，假设保存在栈内存中的是对象名称，一个栈内存只能够保存一块对应的堆内存空间地址所以现在按照以上的分析，就可以得出如下的内存...

2019-02-27 17:10:00 78

原创 bash shell基本编程

这里主要讲bash shell变量等号之间不能有空格，直接定义变量追加字符串yes:name=me=${name}yes特殊变量：环境变量通过env命令查找，其中一个path环境变量，例如执行ls命令，系统就会去找path下/usr/bin下的ls命令(其中有很多命令)。把普通变量变成环境变量：export CAT_HOME="blue house"bash shell操作...

2019-02-27 17:07:00 70

原创 ResourceManager的HA配置

HDFS的NameNode类似，如果Yarn的ResourceManager挂掉了怎么办，我们需要配置ResourceManager的高可用性(一个挂掉，另一个可以接着起来干活)，这里同样可以使用Zookeeper的master选举机制来实现1、保证zookeeper服务正常，分别到master、slave1和slave2上把Zookeeper启动zkServer.sh start2、关闭...

2019-02-27 17:04:00 124

原创 Yarn Fair Scheduler配置

1、先关闭yarn, stop-yarn.sh2、开启fair机制：在yarn-site.xml中配置：<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourceman...

2019-02-27 17:03:00 144

原创 Yarn Capacity Scheduler配置

我们开辟出两个队列，一个是生产上需要的队列prod，一个是开发上需要的队列dev，开发下面又分了eng工程师和science科学家，我们这样就可以指定队列1、关闭yarn, stop-yarn.sh2、先备份$HADOOP_HOME/etc/hadoop/capacity-scheduler.xml cp capacity-scheduler.xml capacity-schedule...

2019-02-27 17:03:00 81

在企业中并不是只有一个人来执行MapReduce程序单独使用Yarn的资源，实际开发中，会有很多人一起使用Yarn这个资源，如果每个人都提交了job，这个时候Yarn就需要进行调度去分配资源给job，下面三种调度机制，默认的是FIFO机制，这种机制是先进先出队列机制，在企业中基本不会使用，第二种机制Capacity机制是使用最多的，它是开辟出两个队列分给不同的组来执行job，但相同的组还是要...

2019-02-27 17:02:00 103

原创 Hadoop压缩机制的了解

通过一定的算法对数据进行特殊编码，使得数据占用的存储空间比较小，这个过程我们称之为压缩，反之为解压缩不管哪种压缩工具都需要权衡时间和空间在大数据领域内还要考虑压缩文件的可分割性 Hadoop支持的压缩工具有：DEFLATE、gzip、bzip以及Snappy 压缩与解压：CompressTest.javapublic class CompressTest { public...

2019-02-27 17:01:00 54

原创 HDFS中两个集群数据文件拷贝的方式

在不同的两个HDFS集群中拷贝数据，我们可以使用distcp，集群之间拷贝数据的正确姿势是： hadoop distcp hdfs://master1:9999/foo/bar hdfs://master2:9999/bar/foo 上面的意思是将集群master1上的文件foo/bar拷贝到master2集群上的bar/foo目录下 hadoop distcp hdfs://master1:...

2019-02-27 17:01:00 65

原创 MR内存cpu资源配置

向MR申请的内存默认是1024，但不想用默认的内存分配，如何配置？内存分配配置在mapred-site.xml中增加如下配置：<property> <name>yarn.app.mapreduce.am.resource.mb</name> <value>1200</value> <descri...

2019-02-27 17:00:00 89

原创 HDFS HA（高可用性）集群规划

HA：High Available(高可用性) 集群规划：集群规划讲解：两个NameNode之间需要数据进行同步，使用Journal nodes来同步，这个进程建议部署奇数个(3、5等)。两个NameNode，哪一个才是masterNameNode呢，需要使用Zookeeper来选举。Zookeeper与NameNode之间的交互使用ZKFailover Controller这...

2019-02-27 16:56:00 72

原创 Master选举原理

为什么需要Zookeeper？为了防止集群的主NameNode挂掉，再另创建一个辅NameNode，两个保持数据同步，一旦主NameNode挂掉，集群就会把辅NameNode节点作为整个集群的主NameNode，而在这之间就需要用到Zookeeper来协调，帮助辅NameNode成为整个集群的主NameNode。在这里Zookeeper是实现的master选举机制完成这一过程，选举机制分两...

2019-02-27 16:52:00 67

原创使用Zookeeper完成对数据库配置的管理

每台机器的应用程序都需要连接数据库，而数据库的配置信息(连接信息)，这时候放在机器本地的话不方面(机器多，需要一个个改配置信息)，这就用到Zookeeper，把数据库的配置信息放到配置中心，利用Zookeeper节点可以存储数据的特性，然后各台机器可以使用JavaAPI去获取Zookeeper中数据库的配置信息。每一个应用都在Zookeeper节点注册监听器，一旦节点信息改变，各台机器就获取信息...

2019-02-27 16:49:00 75

原创安装分布式zookeeper

如果要master机器挂掉，单机版的Zookeeper就提供不了服务了，所以要多安装几个节点的Zookeeper服务，所以要安装分布式的Zookeeper进入到zk中的conf目录，配置zoo.cfg文件，如下： vi zoo.cfg 填写如下配置： server.0=master:8880:7770 server.1=slave1:8881:7771 server.2=slave2:888...

2019-02-27 16:41:00 57

原创 Rebalance和SafeMode

rebalance有时候HDFS集群并不平衡，可能在一个DataNode中数据量很多，而另一个DataNode中数据量很少，这就导致整个集群使用率低，有些节点压力小，有些节点压力大，集群不稳定。加入刚加进来一个DataNode节点，压力比较轻，而别的DataNode节点负载压力中，需要平衡一下数据，就需要用到rebalance命令。基本命令如下：hdfs balancer ...

2019-02-27 16:35:00 66

原创告诉你怎么使用Snapshots

Snapshots用于数据备份、保护数据不被破坏基本命令允许这个文件路径可以创建snapshots： hdfs dfsadmin -allowSnapshot /user/hadoop-twq/cmd 创建snapshots hdfs dfs -createSnapshot /user/hadoop-twq/cmd cmd-20180326-snapshot 查看snapshots hd...

2019-02-27 16:35:00 96

原创 Federation配置

NameNode怎样扩展？首先要明确为什么要扩展NameNode，因为NameNode存储在内存中，而内存容量是有限的，当一台节点NameNode内存满了，不足以存放的时候，就需要扩展，(NameNode管理了很多文件，每个文件下又有很多数据块，数据会膨胀的很厉害，当集群大到一定程度的时候，上亿，上千百亿的时候，内存会达到瓶颈，就需要扩展)。如何配置能达到这种多个NameNode呢?这...

2019-02-27 16:26:00 61

原创 ViewFS的配置

为了解决Federation配置的问题(访问集群的时候我们要记住每个NameNode所在节点的名称)ViewFS配置(在master节点配置)：配置前先关闭集群1、配置core-site.xml：将原本的文件：<configuration > <property> <name>fs.default...

2019-02-27 16:26:00 53

原创 HDFS中的数据块

创建一个321M的big_file.txt文件：写一个脚本：vi test.sh，内容：#!/bin/bashfor((i=0;i<=$1;i++))doecho "just an example" >> big_file.txtdone执行脚本：bash test.sh 100(增加100行数据，直到文件大小到321M) 将321M的big_file...

2019-02-27 16:18:00 61

原创 HDFS文件恢复机制

Linux中，rm put.txt是恢复不出来的 hdfs中，hadoop fs -rm /user/hadoop-twq/cmd/put.txt恢复不出来如果想要删完之后还可以找到，hdfs提供了trash机制(默认是关闭的) 需要在core-site.xml配置：<property> <name>fs.trash.interval</name...

2019-02-27 16:16:00 84

原创 HDFS常用操作命令

在master上以hadoop-twq用户登录cd ~、ls /查看HDFS文件目录： hadoop fs -ls hdfs://master:9999/(当前还没有文件) 效果等同于：hadoop fs -ls / 效果也等同于：hdfs dfs -ls /在这个根目录创建一个文件或目录： hadoop fs -mkdir /user 效果等同于：hadoop fs -mkdir...

2019-02-27 16:13:00 66

原创分布式存储的原理

5PB甚至更大的数据集怎么存储？1PB = 1024TB、1TB = 1024GB、1GB = 1024M假设我们将数据块的大小定义成256M，那么5PB的数据集可以划分成20971520左右的数据块，这些数据块可以均匀分布在1000台机器节点(每个节点假设空间为10TB上一台机器死了怎么办？每个数据块可以冗余存储在2台机器上分布式存储特点：数据分块存储在多台机器上每...

2019-02-27 16:10:00 118

原创网络编程

Java最大的特性是跨平台性，它的优势在于网络编程Java最大的特性是跨平台性，它的优势在于网络编程一、网络编程简介C/S结构无连接用户的数据报编程面向连接的Socket编程访问数据库JDBC访问命名目录服务JNDI访问邮件服务器JavaMail访问其他服务……B/S结构服务器端JSP+Servlet客户端HTTP访问先关类...

2017-11-04 02:25:00 57

原创 Java集合框架

挺多的，整理用了很长时间，外加理解。1、集合概述这些接口和类大致分为3层第一层是接口，包括：Conllection接口、List接口、Set接口和Map接口。第二层是抽象类，AbstractConllection、AbstractList、AbstractSet、AbstractMap。方便第3层的使用第三层是实际要使用的类2、Collection接口最顶层的接口就是C...

2017-11-04 00:37:00 71

原创泛型

1、泛型的定义在集合框架里面大量使用框架。一个类中的成员变量和成员方法中的使用的类型可能变化，这时候就可以使用泛型，在声明类的时候使用一个特殊的标识表示这些变化的类型。定义泛型：类名后加"<标识>"，例如Node<E>，E标识可能的类型，在类中出现元素类型的地方都使用E表示。例子：元素类型为任意的节点类package example5_44;public...

2017-11-03 22:07:00 58

原创多线程

一、线程和进程进程可以看成是一个运行中的程序，每个应用就是一个运行的程序，可以看成是一个进程。操作系统会为每个进程分配内存空间和CPU时间等。多任务支持了多进程。线程成为轻量级的进程，有自己的运行环境。线程存在于进程中，每个进程最少有一个线程，线程分享进程的资源。例如程序中同时进行数据读取和数据处理，这样能够提高效率，这时候就需要两个线程。二、java中的多线程实现的方式java中提供了...

2017-11-03 22:06:00 66

考研数据结构1800题

GUI人脸识别MATLAB代码

空空如也