自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 问答 (2)
  • 收藏
  • 关注

原创 Linux同步网络时间ntp

安装ntpyum install ntp -y同步网络时间ntpdate cn.pool.ntp.org

2020-11-18 15:15:11 238

原创 Kafka学习笔记,面试准备

Kafka参考网址:https://blog.csdn.net/u013256816/article/details/89369160 https://www.cnblogs.com/qingyunzong/p/9004703.html https://www.jianshu.com/p/1f02328a4f2e就在前些日子,我面试了北京的一家公司,其中他们就问到了Kafka的问题,在这之前我并未对这个组件十分重视,而且是只会使用。

2020-09-27 22:59:12 289

原创 网络编程-BIO、NIO、AIO的原理与对比

什么是同步异步同步和异步是针对应用程序和内核交互而言的。同步指的是用户进程触发IO操作并等待或者轮询查看IO操作是否就绪。而异步就是指用户进程触发IO操作后便开始干自己的事情,当IO操作完成后,用户会得到IO完成的通知。举个栗子:同步:自己去银行取钱。去了银行申请业务,等待叫号,处理完回家异步:委托他人代为操作,自己可以干别的,等他人取完钱交给自己。OS操作系统底层支持异步IO操作。什么是阻塞和非阻塞阻塞和非阻塞是针对远程访问数据的时候,根据IO操作的就绪状态采取的不同的方式。说白了就是一种

2020-09-08 21:33:06 308

原创 Linux基础笔记

关闭防火墙[root@localhost ~]# systemctl stopfirewalld防止开机启动防火墙[root@localhost ~]# systemctl disablefirewalld永久修改计算机名:hostnamectlset-hostname 名字重启reboot基础cd ~ 进入当前用户家目录cd .当前路径cd …上级目录ls查看当前目录ls -a查看当前目录包括隐藏文件隐藏文件是以 . 开头的文件ls -l查看详细信息 简写llll -

2020-09-07 21:31:37 152

原创 MapReduce中的压缩

压缩Hadoop权威指南5.2 P99Mapper输入压缩在有大量数据并反复处理的情况下,应考虑对输入进行压缩,然而你无需指定使用的译码方式,Hadoop会自动检测文件的扩展名,如果扩展名能够匹配,就会调用恰当的译码方式对文件进行压缩和解压。否则Hadoop不会使用任何译码器,抛异常此阶段默认支持的格式有org.apache.hadoop.io.compress.DefaultCodecorg.apache.hadoop.io.comp

2020-09-07 21:09:04 385

原创 MapReduce中的 分区,分组,排序(区别)

2020-7-26一. Partition分区:功能:按照条件将结果输入到不同的文件中实现步骤:自定义排序规则继承Partitioner类,重写getPartition()方法在job驱动Driver中设置自定义排序规则在Driver中根据分区数,设置ReduceTask数分区数和ReduceTask关系如果ReduceTask的数量(分区数)大于getPartition设置的数量,会产生空的输出文件如果ReduceTask的数量大于1,getPartiti

2020-09-07 20:54:52 1475

原创 Hadoop序列化与Java序列化的区别

hadoop权威指南5.4.3什么时候需要序列化?当 Java 对象需要在网络上传输 或者 持久化存储到文件中时,就需要对Java 对象进行序列化处理。什么是序列化?序列化是指将结构化对象转化成字节流,以便在网络上传输,或是将结构化对象写入本地磁盘的过程。反序列化是指将字节流转回结构化对象的逆序列化操作为什么hadoop不用Java提供的序列化?hadoop不使用Java的序列化(object serialization) 是因为Java的序列化太过重量级,输出结果太复杂,他会输出非常多的信

2020-09-07 20:50:56 829

原创 MapReduce中的shuffle流程

2020-7-24shuffle流程shuffle流程是指MapOut→ReduceIn中间的过程,从Map的输出开始到Reduce方法之前总共执行了四次排序,其中两次为归并排序hadoop权威指南7.3MapTask对于MapTask,它会将数据的处理结果暂时放到环形缓冲区100MB,当环形缓冲区的使用率达到一定阈值(80%)之后,会对环形缓冲区的数据进行一次快速排序(排序且按照分区设置进行划分),并将这些数据溢写到磁盘上,每次溢写都产生一个溢写文件,当数据处理完毕后(产生很多溢写文件),它会

2020-09-07 20:43:42 284

原创 MapReduc中的排序

2020-7-21参考书籍:Hadoop权威指南排序(重点)排序是MapReduce最重要的操作之一MapTask和ReduceTask均会对数据按照Key进行排序,该操作属于MR默认行为。任何应用程序中的数据均会被排序,不论是否需要hadoop权威指南9·2·2p254:下面是我为大家翻译一遍上面这段话1·若已经指定了排序规则,且设置好,API就会使用自己设置的排序规则2·若未指定排序则类,Map和Reduce输出的键(key)必须是WritableComparable的子类!3·

2020-09-07 20:35:44 198

原创 复本,块,机架感知与复本存放策略

HDFS的副本机制在HDFS中,所有的文件都是以block块的方式存储在HDFS文件系统中,块非常适合用于数据备份,从而提高容错能力通过配置hdfs-site.xml,可以配置副本数量,默认是3有几个datanode就可以存放几个副本副本,假如副本设置为3,只有两个DataNode,那么实际的副本就只有两个block块block块是从物理上(磁盘)上进行分块存储。与切片不同,切片知识逻辑上将数据分开,其实还是一个整体数据,只是改变了运算时的偏移量每个副本存储都是用block块,大于128M或者

2020-09-07 20:29:27 374

原创 分布式文件存储系统的优点和缺点

分布式文件存储系统分布式:在hdfs中由多个服务器组成,每个服务器扮演着不同的角色HDFS适用于一次写入多次读出,不支持文件修改优点1高容错性一台宕机没有什么问题,不会造成一个数据整体丢失。丢失的部分数据丢失会很快从其他节点拉取并回复。2合存储大数据量的文件数量级GB TB PB都支持件规模适合存储百万规模的数据3硬件价格低廉可以使用廉价的物理机缺点1不适合存储小文件这个面试也可能会被问到,请重点理解造成namenode的元数据储存信息比较多文件过多会导致寻址时间较长,组

2020-09-07 20:23:20 3340

原创 hadoop-NameNode、DataNode相关理论知识

参考:hadoop权威指南 章节:3.2.2 11.1.12020_7_15心跳机制DN-NN:上传datanode链接状态为3s一次,若10分钟未响应,namenode则判断该datanode为不可用上传block块状态信息为60分钟一次块数据信息非实时上传,是在写入时由客户端上传,若其中一个datanode宕机,也会在一小时的周期后才会通知到namenode,但是如果这时执行下载,若namenode分配的block存储节点不通,会反馈会namenode ,进行重新分配若一台datanod

2020-09-07 20:17:40 482

原创 VMwareWorkstation虚拟机下的Hadoop完全分布式环境搭建(HDFS,YARN,SSH配置)----hadoop学习笔记

工具:装了CentOS系统的虚拟机这里是先实现伪分布式,再对伪分布式进行克隆,修改得到的完全分布式第一步:安装前准备1.关闭防火墙[root@localhost ~]# systemctl stopfirewalld关闭防火墙[root@localhost ~]# systemctl disablefirewalld防止开机启动防火墙2.将计算机重命名运行命令hostnamectl set-hostname 名字重启reboot3.安装linux版的JDK1.8jdk1.8L

2020-09-07 20:04:38 558

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除