自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AntarcticPenguin

你到底是不是灵珠,我一个魔丸都活得比你像个人样,你敢再怂些吗?

  • 博客(67)
  • 资源 (2)
  • 收藏
  • 关注

原创 Linux Collect

Linux Linux基本命令 Linux 下hosts文件详解 bash shell基本编程 linux查看java安装路径 Linux命令行颜色美化 Linux中mysql的启动 Linux的启动流程 linux系统基本构成

2020-12-15 16:29:01 221

原创 in-depth understanding B/S and C/S framework

深入理解B/S与C/S架构

2020-12-15 16:19:34 220

原创 数据结构 && 计网 && 机组 && 操作系统

一、数据结构 二、计算机网络 与IPv4 相比,IPv6 的特点 三、计算机组成原理 四、操作系统

2020-07-15 14:08:02 516

原创 BigData && Hadoop && Spark生态圈

Hadoop

2020-07-15 13:36:21 143

原创 Java Collect

对象内存分析 网络编程 Java集合框架 泛型 多线程 Object和Class 精通Groovy之简要总结 IPv6基本编程——Java

2020-07-15 13:17:15 114

原创 与IPv4 相比,IPv6 的特点

与IPv4 相比,IPv6 具有以下特点 : 近乎无限的地址空间 更简洁的报文头部 内置的安全性 更好的QoS支持 更好的移动性

2019-11-22 13:02:50 2300

原创 linux系统基本构成

linux系统包括4大部分 Linux内核、Linux Shell、Linux应用程序、Linux文件系统 每个部分的作用: 内核(Kernel)是系统的心脏,实现操作系统的基本功能 在硬件方面:控制硬件设备,内存管理,硬件接口,基本I/O 在软件方面:管理文件系统,为程序分配内存和CPU时间等 Shell是系统的用户界面,提供了用户与内核进行交互操作的一种接口 Shell是一个命令...

2019-11-22 12:58:03 365

转载 Linux的启动流程

Linxu基本的系统架构: Linux启动流程 加载BIOS   打开计算机电源,计算机会首先加载BIOS信息,因为BIOS中包含了CPU的相关信息、设备启动顺序信息、硬盘信息、内存信息、时钟信息、PnP特性等等,此后,计算机就知道应该去读取哪个硬件设备 读取MBR   众所周知,硬盘上第0磁道第一个扇区被称为MBR(Master Boot Record),即主引导记录,它的大小是512字节...

2019-11-22 12:47:57 127

原创 Sublime Text快捷操作

Mac操作系统和Windows操作系统快捷键差别较大 打开文件后会自动识别文件类型(例如js文件) 能在这里面打开图片 Edit: 复制一行,删除一行,Edit——》line——》duplicate line/delete line 注释代码,Edit——》comment——》toggle comment 直接进入下一行Edit——》Text——》insert line After Select...

2019-10-30 22:19:40 243

原创 sublime Text3乱码处理插件

安装乱码处理插件:   调用ctrl+shift+p,输入:install package,回车,在稍后弹出的安装包框中搜索:ConvertToUTF8或者GBK Encoding Support,选择点击安装;

2019-10-30 22:03:30 157

原创 idea的plugin插件

idea不同,里面搜索的到plugin插件版本是不一样的, idea内部安装不了就去网络查找自己idea中对应plugin插件版本进行安装

2019-10-30 21:52:36 227

原创 jupyter notebook theme settings

我的设置:jt -t oceans16 -f fira -fs 11 -cellw 60% -ofs 11 -dfs 11 -T -N 设置效果: 参考链接: https://www.cnblogs.com/tianqizhi/p/10612976.html

2019-10-30 14:32:07 361

原创 Linux命令行颜色美化

用户路径下执行命令: ls -la vi .bashrc 添加: export PS1='\[\033[01;31m\]\u\[\033[00m\]@\[\033[01;32m\]\h\[\033[00m\][\[\033[01;33m\]\t\[\033[00m\]]:\[\033[01;34m\]\w\[\033[00m\]$ ' source .bashrc 效果: ...

2019-10-30 14:27:20 1853 1

原创 数据分析之基础篇

前言: 数据分析的应用: 了解用户画像、为企业做留存率、流失率等指标分析,进而精细化产品运营 预测比特币走势 信用卡发欺诈、自动屏蔽垃圾邮件等 高效的学习方法(MAS方法): Multi-Dimension:多角度认识事物,进而掌握它 Ask:不懂就问(突破这一点,同时也要兼顾“会问”) Sharing:最好的学习就是分享,用自己的语言讲出来,并对知识进一步梳理 一、全景图以及修炼指南 ...

2019-10-28 19:01:00 1139

原创 Gradle

Gradle与Ant、Maven类似,是一种项目构建工具,之前使用的Eclipse是使用Ant来实现项目构建的。在AS中第一次创建项目的时候,会自动下载Gradle在AS中第一次创建项目的时候,会自动下载Gradle。不过对国外的网站,网速太慢。 使用本地已经下载好的gradle版本:File->Settings->搜索gradle,默认下载路径为本机用户下的那个.gradle里面...

2019-10-26 14:20:00 41

原创 对象内存分析

类本身属于引用类型,所以对于引用类型就必须为其进行内存分析,那么在分析之前,首先给出两块内存空间的概念: 堆内存空间(Heap):保存的是对象中具体的属性信息; 栈内存空间(Stack):是保存的堆内存的地址数值,所以现在可以简化一点,假设保存在栈内存中的是对象名称,一个栈内存只能够保存一块对应的堆内存空间地址 所以现在按照以上的分析,就可以得出如下的内存...

2019-02-27 17:10:00 45

原创 bash shell基本编程

这里主要讲bash shell 变量 等号之间不能有空格,直接定义变量 追加字符串yes:name=me=${name}yes 特殊变量:环境变量 通过env命令查找,其中一个path环境变量,例如执行ls命令,系统就会去找path下/usr/bin下的ls命令(其中有很多命令)。 把普通变量变成环境变量:export CAT_HOME="blue house" bash shell操作...

2019-02-27 17:07:00 42

原创 ResourceManager的HA配置

HDFS的NameNode类似,如果Yarn的ResourceManager挂掉了怎么办,我们需要配置ResourceManager的高可用性(一个挂掉,另一个可以接着起来干活),这里同样可以使用Zookeeper的master选举机制来实现 1、保证zookeeper服务正常,分别到master、slave1和slave2上把Zookeeper启动zkServer.sh start 2、关闭...

2019-02-27 17:04:00 65

原创 Yarn Fair Scheduler配置

1、先关闭yarn, stop-yarn.sh 2、开启fair机制:在yarn-site.xml中配置: <property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourceman...

2019-02-27 17:03:00 45

原创 Yarn Capacity Scheduler配置

我们开辟出两个队列,一个是生产上需要的队列prod,一个是开发上需要的队列dev,开发下面又分了eng工程师和science科学家,我们这样就可以指定队列 1、关闭yarn, stop-yarn.sh 2、先备份$HADOOP_HOME/etc/hadoop/capacity-scheduler.xml cp capacity-scheduler.xml capacity-schedule...

2019-02-27 17:03:00 39

原创 Yarn的三种资源调度机制

在企业中并不是只有一个人来执行MapReduce程序单独使用Yarn的资源,实际开发中,会有很多人一起使用Yarn这个资源,如果每个人都提交了job,这个时候Yarn就需要进行调度去分配资源给job, 下面三种调度机制,默认的是FIFO机制,这种机制是先进先出队列机制,在企业中基本不会使用,第二种机制Capacity机制是使用最多的,它是开辟出两个队列分给不同的组来执行job,但相同的组还是要...

2019-02-27 17:02:00 55

原创 Hadoop压缩机制的了解

通过一定的算法对数据进行特殊编码,使得数据占用的存储空间比较小,这个过程我们称之为压缩,反之为解压缩 不管哪种压缩工具都需要权衡时间和空间 在大数据领域内还要考虑压缩文件的可分割性 Hadoop支持的压缩工具有:DEFLATE、gzip、bzip以及Snappy 压缩与解压:CompressTest.java public class CompressTest { public...

2019-02-27 17:01:00 23

原创 HDFS中两个集群数据文件拷贝的方式

在不同的两个HDFS集群中拷贝数据,我们可以使用distcp,集群之间拷贝数据的正确姿势是: hadoop distcp hdfs://master1:9999/foo/bar hdfs://master2:9999/bar/foo 上面的意思是将集群master1上的文件foo/bar拷贝到master2集群上的bar/foo目录下 hadoop distcp hdfs://master1:...

2019-02-27 17:01:00 33

原创 MR内存cpu资源配置

向MR申请的内存默认是1024,但不想用默认的内存分配,如何配置? 内存分配配置 在mapred-site.xml中增加如下配置: <property> <name>yarn.app.mapreduce.am.resource.mb</name> <value>1200</value> <descri...

2019-02-27 17:00:00 40

原创 HDFS HA(高可用性)集群规划

HA:High Available(高可用性) 集群规划: 集群规划讲解: 两个NameNode之间需要数据进行同步,使用Journal nodes来同步,这个进程建议部署奇数个(3、5等)。 两个NameNode,哪一个才是masterNameNode呢,需要使用Zookeeper来选举。 Zookeeper与NameNode之间的交互使用ZKFailover Controller这...

2019-02-27 16:56:00 38

原创 Master选举原理

为什么需要Zookeeper? 为了防止集群的主NameNode挂掉,再另创建一个辅NameNode,两个保持数据同步,一旦主NameNode挂掉,集群就会把辅NameNode节点作为整个集群的主NameNode,而在这之间就需要用到Zookeeper来协调,帮助辅NameNode成为整个集群的主NameNode。 在这里Zookeeper是实现的master选举机制完成这一过程,选举机制分两...

2019-02-27 16:52:00 27

原创 使用Zookeeper完成对数据库配置的管理

每台机器的应用程序都需要连接数据库,而数据库的配置信息(连接信息),这时候放在机器本地的话不方面(机器多,需要一个个改配置信息),这就用到Zookeeper,把数据库的配置信息放到配置中心,利用Zookeeper节点可以存储数据的特性,然后各台机器可以使用JavaAPI去获取Zookeeper中数据库的配置信息。每一个应用都在Zookeeper节点注册监听器,一旦节点信息改变,各台机器就获取信息...

2019-02-27 16:49:00 39

原创 安装分布式zookeeper

如果要master机器挂掉,单机版的Zookeeper就提供不了服务了,所以要多安装几个节点的Zookeeper服务,所以要安装分布式的Zookeeper 进入到zk中的conf目录,配置zoo.cfg文件,如下: vi zoo.cfg 填写如下配置: server.0=master:8880:7770 server.1=slave1:8881:7771 server.2=slave2:888...

2019-02-27 16:41:00 24

原创 Rebalance和SafeMode

rebalance 有时候HDFS集群并不平衡,可能在一个DataNode中数据量很多,而另一个DataNode中数据量很少,这就导致整个集群使用率低,有些节点压力小,有些节点压力大,集群不稳定。加入刚加进来一个DataNode节点,压力比较轻,而别的DataNode节点负载压力中,需要平衡一下数据,就需要用到rebalance命令。 基本命令如下: hdfs balancer ...

2019-02-27 16:35:00 26

原创 告诉你怎么使用Snapshots

Snapshots用于数据备份、保护数据不被破坏 基本命令 允许这个文件路径可以创建snapshots: hdfs dfsadmin -allowSnapshot /user/hadoop-twq/cmd 创建snapshots hdfs dfs -createSnapshot /user/hadoop-twq/cmd cmd-20180326-snapshot 查看snapshots hd...

2019-02-27 16:35:00 39

原创 Federation配置

NameNode怎样扩展? 首先要明确为什么要扩展NameNode,因为NameNode存储在内存中,而内存容量是有限的,当一台节点NameNode内存满了,不足以存放的时候,就需要扩展,(NameNode管理了很多文件,每个文件下又有很多数据块,数据会膨胀的很厉害,当集群大到一定程度的时候,上亿,上千百亿的时候,内存会达到瓶颈,就需要扩展)。 如何配置能达到这种多个NameNode呢? 这...

2019-02-27 16:26:00 23

原创 ViewFS的配置

为了解决Federation配置的问题(访问集群的时候我们要记住每个NameNode所在节点的名称) ViewFS配置(在master节点配置): 配置前先关闭集群 1、配置core-site.xml: 将原本的文件: <configuration > <property> <name>fs.default...

2019-02-27 16:26:00 22

原创 HDFS中的数据块

创建一个321M的big_file.txt文件: 写一个脚本:vi test.sh,内容: #!/bin/bash for((i=0;i<=$1;i++)) do echo "just an example" >> big_file.txt done 执行脚本:bash test.sh 100(增加100行数据,直到文件大小到321M) 将321M的big_file...

2019-02-27 16:18:00 24

原创 HDFS文件恢复机制

Linux中,rm put.txt是恢复不出来的 hdfs中,hadoop fs -rm /user/hadoop-twq/cmd/put.txt恢复不出来 如果想要删完之后还可以找到,hdfs提供了trash机制(默认是关闭的) 需要在core-site.xml配置: <property> <name>fs.trash.interval</name...

2019-02-27 16:16:00 38

原创 HDFS常用操作命令

在master上以hadoop-twq用户登录 cd ~、ls / 查看HDFS文件目录: hadoop fs -ls hdfs://master:9999/(当前还没有文件) 效果等同于:hadoop fs -ls / 效果也等同于:hdfs dfs -ls / 在这个根目录创建一个文件或目录: hadoop fs -mkdir /user 效果等同于:hadoop fs -mkdir...

2019-02-27 16:13:00 30

原创 分布式存储的原理

5PB甚至更大的数据集怎么存储 ? 1PB = 1024TB、1TB = 1024GB、1GB = 1024M 假设我们将数据块的大小定义成256M, 那么5PB的数据集可以划分成20971520左右的数据块, 这些数据块可以均匀分布在1000台机器节点(每个节点假设空间为10TB上 一台机器死了怎么办? 每个数据块可以冗余存储在2台机器上 分布式存储特点: 数据分块存储在多台机器上 每...

2019-02-27 16:10:00 41

原创 网络编程

Java最大的特性是跨平台性,它的优势在于网络编程Java最大的特性是跨平台性,它的优势在于网络编程 一、网络编程简介 C/S结构 无连接用户的数据报编程 面向连接的Socket编程 访问数据库JDBC 访问命名目录服务JNDI 访问邮件服务器JavaMail 访问其他服务…… B/S结构 服务器端JSP+Servlet 客户端HTTP访问先关类 ...

2017-11-04 02:25:00 18

原创 Java集合框架

挺多的,整理用了很长时间,外加理解。 1、集合概述 这些接口和类大致分为3层 第一层是接口,包括:Conllection接口、List接口、Set接口和Map接口。 第二层是抽象类,AbstractConllection、AbstractList、AbstractSet、AbstractMap。方便第3层的使用 第三层是实际要使用的类 2、Collection接口 最顶层的接口就是C...

2017-11-04 00:37:00 24

原创 泛型

1、泛型的定义 在集合框架里面大量使用框架。 一个类中的成员变量和成员方法中的使用的类型可能变化,这时候就可以使用泛型,在声明类的时候使用一个特殊的标识表示这些变化的类型。 定义泛型:类名后加"<标识>",例如Node<E>,E标识可能的类型,在类中出现元素类型的地方都使用E表示。 例子:元素类型为任意的节点类 package example5_44; public...

2017-11-03 22:07:00 26

原创 多线程

一、线程和进程 进程可以看成是一个运行中的程序,每个应用就是一个运行的程序,可以看成是一个进程。操作系统会为每个进程分配内存空间和CPU时间等。多任务支持了多进程。 线程成为轻量级的进程,有自己的运行环境。线程存在于进程中,每个进程最少有一个线程,线程分享进程的资源。例如程序中同时进行数据读取和数据处理,这样能够提高效率,这时候就需要两个线程。 二、java中的多线程实现的方式 java中提供了...

2017-11-03 22:06:00 17

考研数据结构1800题

考研数据结构1800题,考研同志们务必认真做..........

2018-10-09

GUI人脸识别MATLAB代码

使用MATLAB代码实现人脸识别,使用GUI显示。

2017-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除