jsx____-CSDN博客

原创 Linux同步网络时间ntp

安装ntpyum install ntp -y同步网络时间ntpdate cn.pool.ntp.org

2020-11-18 15:15:11 238

Kafka参考网址：https://blog.csdn.net/u013256816/article/details/89369160 https://www.cnblogs.com/qingyunzong/p/9004703.html https://www.jianshu.com/p/1f02328a4f2e就在前些日子，我面试了北京的一家公司，其中他们就问到了Kafka的问题，在这之前我并未对这个组件十分重视，而且是只会使用。

2020-09-27 22:59:12 289

原创网络编程-BIO、NIO、AIO的原理与对比

什么是同步异步同步和异步是针对应用程序和内核交互而言的。同步指的是用户进程触发IO操作并等待或者轮询查看IO操作是否就绪。而异步就是指用户进程触发IO操作后便开始干自己的事情，当IO操作完成后，用户会得到IO完成的通知。举个栗子：同步：自己去银行取钱。去了银行申请业务，等待叫号，处理完回家异步：委托他人代为操作，自己可以干别的，等他人取完钱交给自己。OS操作系统底层支持异步IO操作。什么是阻塞和非阻塞阻塞和非阻塞是针对远程访问数据的时候，根据IO操作的就绪状态采取的不同的方式。说白了就是一种

2020-09-08 21:33:06 308

原创 Linux基础笔记

关闭防火墙[root@localhost ~]# systemctl stopfirewalld防止开机启动防火墙[root@localhost ~]# systemctl disablefirewalld永久修改计算机名：hostnamectlset-hostname 名字重启reboot基础cd ~ 进入当前用户家目录cd .当前路径cd …上级目录ls查看当前目录ls -a查看当前目录包括隐藏文件隐藏文件是以 . 开头的文件ls -l查看详细信息简写llll -

2020-09-07 21:31:37 152

原创 MapReduce中的压缩

压缩Hadoop权威指南5.2 P99Mapper输入压缩在有大量数据并反复处理的情况下，应考虑对输入进行压缩，然而你无需指定使用的译码方式，Hadoop会自动检测文件的扩展名，如果扩展名能够匹配，就会调用恰当的译码方式对文件进行压缩和解压。否则Hadoop不会使用任何译码器，抛异常此阶段默认支持的格式有org.apache.hadoop.io.compress.DefaultCodecorg.apache.hadoop.io.comp

2020-09-07 21:09:04 385

原创 MapReduce中的分区，分组，排序（区别）

2020-7-26一． Partition分区：功能：按照条件将结果输入到不同的文件中实现步骤：自定义排序规则继承Partitioner类，重写getPartition（）方法在job驱动Driver中设置自定义排序规则在Driver中根据分区数，设置ReduceTask数分区数和ReduceTask关系如果ReduceTask的数量（分区数）大于getPartition设置的数量，会产生空的输出文件如果ReduceTask的数量大于1，getPartiti

2020-09-07 20:54:52 1475

原创 Hadoop序列化与Java序列化的区别

hadoop权威指南5.4.3什么时候需要序列化？当 Java 对象需要在网络上传输或者持久化存储到文件中时，就需要对Java 对象进行序列化处理。什么是序列化？序列化是指将结构化对象转化成字节流，以便在网络上传输，或是将结构化对象写入本地磁盘的过程。反序列化是指将字节流转回结构化对象的逆序列化操作为什么hadoop不用Java提供的序列化？hadoop不使用Java的序列化（object serialization）是因为Java的序列化太过重量级，输出结果太复杂，他会输出非常多的信

2020-09-07 20:50:56 829

原创 MapReduce中的shuffle流程

2020-7-24shuffle流程shuffle流程是指MapOut→ReduceIn中间的过程，从Map的输出开始到Reduce方法之前总共执行了四次排序，其中两次为归并排序hadoop权威指南7.3MapTask对于MapTask,它会将数据的处理结果暂时放到环形缓冲区100MB，当环形缓冲区的使用率达到一定阈值（80%）之后，会对环形缓冲区的数据进行一次快速排序（排序且按照分区设置进行划分），并将这些数据溢写到磁盘上，每次溢写都产生一个溢写文件，当数据处理完毕后（产生很多溢写文件），它会

2020-09-07 20:43:42 284

原创 MapReduc中的排序

2020-7-21参考书籍：Hadoop权威指南排序（重点）排序是MapReduce最重要的操作之一MapTask和ReduceTask均会对数据按照Key进行排序，该操作属于MR默认行为。任何应用程序中的数据均会被排序，不论是否需要hadoop权威指南9·2·2p254：下面是我为大家翻译一遍上面这段话1·若已经指定了排序规则，且设置好，API就会使用自己设置的排序规则2·若未指定排序则类，Map和Reduce输出的键（key）必须是WritableComparable的子类！3·

2020-09-07 20:35:44 198

原创复本，块，机架感知与复本存放策略

HDFS的副本机制在HDFS中，所有的文件都是以block块的方式存储在HDFS文件系统中，块非常适合用于数据备份，从而提高容错能力通过配置hdfs-site.xml，可以配置副本数量，默认是3有几个datanode就可以存放几个副本副本，假如副本设置为3，只有两个DataNode，那么实际的副本就只有两个block块block块是从物理上（磁盘）上进行分块存储。与切片不同，切片知识逻辑上将数据分开，其实还是一个整体数据，只是改变了运算时的偏移量每个副本存储都是用block块，大于128M或者

2020-09-07 20:29:27 374

原创分布式文件存储系统的优点和缺点

分布式文件存储系统分布式：在hdfs中由多个服务器组成，每个服务器扮演着不同的角色HDFS适用于一次写入多次读出，不支持文件修改优点1高容错性一台宕机没有什么问题，不会造成一个数据整体丢失。丢失的部分数据丢失会很快从其他节点拉取并回复。2合存储大数据量的文件数量级GB TB PB都支持件规模适合存储百万规模的数据3硬件价格低廉可以使用廉价的物理机缺点1不适合存储小文件这个面试也可能会被问到，请重点理解造成namenode的元数据储存信息比较多文件过多会导致寻址时间较长，组

2020-09-07 20:23:20 3340

原创 hadoop-NameNode、DataNode相关理论知识

参考：hadoop权威指南章节：3.2.2 11.1.12020_7_15心跳机制DN-NN：上传datanode链接状态为3s一次，若10分钟未响应，namenode则判断该datanode为不可用上传block块状态信息为60分钟一次块数据信息非实时上传，是在写入时由客户端上传，若其中一个datanode宕机，也会在一小时的周期后才会通知到namenode，但是如果这时执行下载，若namenode分配的block存储节点不通，会反馈会namenode ，进行重新分配若一台datanod

2020-09-07 20:17:40 482

原创 VMwareWorkstation虚拟机下的Hadoop完全分布式环境搭建（HDFS,YARN,SSH配置）----hadoop学习笔记

工具：装了CentOS系统的虚拟机这里是先实现伪分布式，再对伪分布式进行克隆，修改得到的完全分布式第一步：安装前准备1.关闭防火墙[root@localhost ~]# systemctl stopfirewalld关闭防火墙[root@localhost ~]# systemctl disablefirewalld防止开机启动防火墙2.将计算机重命名运行命令hostnamectl set-hostname 名字重启reboot3.安装linux版的JDK1.8jdk1.8L

2020-09-07 20:04:38 558