大数据
jsx____
就要去找工作啦,筹备中~
展开
-
Kafka学习笔记,面试准备
Kafka参考网址:https://blog.csdn.net/u013256816/article/details/89369160 https://www.cnblogs.com/qingyunzong/p/9004703.html https://www.jianshu.com/p/1f02328a4f2e就在前些日子,我面试了北京的一家公司,其中他们就问到了Kafka的问题,在这之前我并未对这个组件十分重视,而且是只会使用。原创 2020-09-27 22:59:12 · 272 阅读 · 0 评论 -
Linux基础笔记
关闭防火墙[root@localhost ~]# systemctl stopfirewalld防止开机启动防火墙[root@localhost ~]# systemctl disablefirewalld永久修改计算机名:hostnamectlset-hostname 名字重启reboot基础cd ~ 进入当前用户家目录cd .当前路径cd …上级目录ls查看当前目录ls -a查看当前目录包括隐藏文件隐藏文件是以 . 开头的文件ls -l查看详细信息 简写llll -原创 2020-09-07 21:31:37 · 125 阅读 · 0 评论 -
MapReduce中的压缩
压缩Hadoop权威指南5.2 P99Mapper输入压缩在有大量数据并反复处理的情况下,应考虑对输入进行压缩,然而你无需指定使用的译码方式,Hadoop会自动检测文件的扩展名,如果扩展名能够匹配,就会调用恰当的译码方式对文件进行压缩和解压。否则Hadoop不会使用任何译码器,抛异常此阶段默认支持的格式有org.apache.hadoop.io.compress.DefaultCodecorg.apache.hadoop.io.comp原创 2020-09-07 21:09:04 · 354 阅读 · 0 评论 -
MapReduce中的 分区,分组,排序(区别)
2020-7-26一. Partition分区:功能:按照条件将结果输入到不同的文件中实现步骤:自定义排序规则继承Partitioner类,重写getPartition()方法在job驱动Driver中设置自定义排序规则在Driver中根据分区数,设置ReduceTask数分区数和ReduceTask关系如果ReduceTask的数量(分区数)大于getPartition设置的数量,会产生空的输出文件如果ReduceTask的数量大于1,getPartiti原创 2020-09-07 20:54:52 · 1417 阅读 · 0 评论 -
Hadoop序列化与Java序列化的区别
hadoop权威指南5.4.3什么时候需要序列化?当 Java 对象需要在网络上传输 或者 持久化存储到文件中时,就需要对Java 对象进行序列化处理。什么是序列化?序列化是指将结构化对象转化成字节流,以便在网络上传输,或是将结构化对象写入本地磁盘的过程。反序列化是指将字节流转回结构化对象的逆序列化操作为什么hadoop不用Java提供的序列化?hadoop不使用Java的序列化(object serialization) 是因为Java的序列化太过重量级,输出结果太复杂,他会输出非常多的信原创 2020-09-07 20:50:56 · 760 阅读 · 0 评论 -
MapReduce中的shuffle流程
2020-7-24shuffle流程shuffle流程是指MapOut→ReduceIn中间的过程,从Map的输出开始到Reduce方法之前总共执行了四次排序,其中两次为归并排序hadoop权威指南7.3MapTask对于MapTask,它会将数据的处理结果暂时放到环形缓冲区100MB,当环形缓冲区的使用率达到一定阈值(80%)之后,会对环形缓冲区的数据进行一次快速排序(排序且按照分区设置进行划分),并将这些数据溢写到磁盘上,每次溢写都产生一个溢写文件,当数据处理完毕后(产生很多溢写文件),它会原创 2020-09-07 20:43:42 · 252 阅读 · 0 评论 -
MapReduc中的排序
2020-7-21参考书籍:Hadoop权威指南排序(重点)排序是MapReduce最重要的操作之一MapTask和ReduceTask均会对数据按照Key进行排序,该操作属于MR默认行为。任何应用程序中的数据均会被排序,不论是否需要hadoop权威指南9·2·2p254:下面是我为大家翻译一遍上面这段话1·若已经指定了排序规则,且设置好,API就会使用自己设置的排序规则2·若未指定排序则类,Map和Reduce输出的键(key)必须是WritableComparable的子类!3·原创 2020-09-07 20:35:44 · 172 阅读 · 0 评论 -
复本,块,机架感知与复本存放策略
HDFS的副本机制在HDFS中,所有的文件都是以block块的方式存储在HDFS文件系统中,块非常适合用于数据备份,从而提高容错能力通过配置hdfs-site.xml,可以配置副本数量,默认是3有几个datanode就可以存放几个副本副本,假如副本设置为3,只有两个DataNode,那么实际的副本就只有两个block块block块是从物理上(磁盘)上进行分块存储。与切片不同,切片知识逻辑上将数据分开,其实还是一个整体数据,只是改变了运算时的偏移量每个副本存储都是用block块,大于128M或者原创 2020-09-07 20:29:27 · 328 阅读 · 0 评论 -
分布式文件存储系统的优点和缺点
分布式文件存储系统分布式:在hdfs中由多个服务器组成,每个服务器扮演着不同的角色HDFS适用于一次写入多次读出,不支持文件修改优点1高容错性一台宕机没有什么问题,不会造成一个数据整体丢失。丢失的部分数据丢失会很快从其他节点拉取并回复。2合存储大数据量的文件数量级GB TB PB都支持件规模适合存储百万规模的数据3硬件价格低廉可以使用廉价的物理机缺点1不适合存储小文件这个面试也可能会被问到,请重点理解造成namenode的元数据储存信息比较多文件过多会导致寻址时间较长,组原创 2020-09-07 20:23:20 · 3119 阅读 · 0 评论 -
hadoop-NameNode、DataNode相关理论知识
参考:hadoop权威指南 章节:3.2.2 11.1.12020_7_15心跳机制DN-NN:上传datanode链接状态为3s一次,若10分钟未响应,namenode则判断该datanode为不可用上传block块状态信息为60分钟一次块数据信息非实时上传,是在写入时由客户端上传,若其中一个datanode宕机,也会在一小时的周期后才会通知到namenode,但是如果这时执行下载,若namenode分配的block存储节点不通,会反馈会namenode ,进行重新分配若一台datanod原创 2020-09-07 20:17:40 · 448 阅读 · 0 评论 -
VMwareWorkstation虚拟机下的Hadoop完全分布式环境搭建(HDFS,YARN,SSH配置)----hadoop学习笔记
工具:装了CentOS系统的虚拟机这里是先实现伪分布式,再对伪分布式进行克隆,修改得到的完全分布式第一步:安装前准备1.关闭防火墙[root@localhost ~]# systemctl stopfirewalld关闭防火墙[root@localhost ~]# systemctl disablefirewalld防止开机启动防火墙2.将计算机重命名运行命令hostnamectl set-hostname 名字重启reboot3.安装linux版的JDK1.8jdk1.8L原创 2020-09-07 20:04:38 · 518 阅读 · 0 评论