FocusBigData-CSDN博客

原创大数据如何进大厂全流程详解【附资料】

【大数据如何进大厂】一、为何要进大厂？体现最明显的是：第一点：薪水待遇丰厚，到时年终时可以获得非常不错的年终奖；享受更好的福利待遇。以我周围的例子，普遍都是 16~24 薪水；同时住房公积金、社保都是全面超越大部分公司；第二点：技术提升快，可以和一线大牛交流学习，也能得到他们的指导，以及随处可见的技术碰撞；在这样的环境中，你的技术成长自然是非常快的。当然补充一点：我认为进入大厂最重要的一点能力就是：自驱学习能力还有抗压能力要比较强大才行二、凭什么拿下大厂的面试机会？牛逼的简历踏实

2022-02-23 14:30:07 1547 2

原创【MapReduce篇01】MapReduce之入门概述(附思维导图资料)

先知道是什么，再去了解为什么MapReduce入门概述MapReduce定义MapReduce是一个基于Hadoop的分布式运算程序的编程框架它的核心功能是将用户编写的业务逻辑代码和自带的组件组合成为一个完整的分布式运算程序，并发的运行在Hadoop集群上。MapReduce优点MapReduce易于编程：简单的实现一些接口就可以实现分布式程序，并且这个分布式程序可以分布到大量廉价的PC机器上执行。良好的扩展性：加机器就可以增加计算能力高容错性：所谓容错就是当系统中一台机.

2022-02-07 21:08:54 914

原创【HDFS篇14】HA高可用 --- Federation架构设

心累的时候不妨停下来休息一下，好好收拾一下情绪在继续前进Federation架构设计1. NameNode架构的局限性（1）Namespace（命名空间）的限制由于NameNode在内存中存储所有的元数据（metadata），因此单个NameNode所能存储的对象（文件+块）数目受到NameNode所在JVM的heap size的限制。50G的heap能够存储20亿（200million）个对象，这20亿个对象支持4000个DataNode，12PB的存储（假设文件平均大小为4.

2020-07-16 16:31:39 578

原创【HDFS篇13】HA高可用 --- YARN-HA集群配置

放弃很简单，但坚持一定很酷YARN-HA集群配置YARN-HA工作机制1.官方文档http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html2.工作机制图其实就是配置多台RM保证集群高可用，操作和上个文档差不多配置YARN-HA集群1.环境准备（1）修改IP（2）修改主机名及主机名和IP地址的映射（3）关闭防火墙（4）ssh免密登录（5）安装JDK，配置环境变量.

2020-07-15 16:22:35 610

原创【HDFS篇12】HA高可用 --- HDFS-HA集群配置

保持自己的节奏前进就对了HDFDS-HA集群配置(一)环境准备修改IP修改主机名及主机名和IP地址的映射关闭防火墙ssh免密登录安装JDK，配置环境变量等(二)规划集群看出我们将NameNode分布到两台机器上，保证集群的高可用性hadoop102hadoop103hadoop104NameNodeNameNodeJournalNodeJournalNodeJournalNodeDataNodeDataNodeDataNodeZK.

2020-07-13 09:10:47 654

原创【HDFS篇11】HA高可用

先达到极限，然后再突破它HA高可用HA概述所谓HA（High Available），即高可用（7*24小时不中断服务）。实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启NameNode机器需要升级，包括软件、硬件升级，此时.

2020-07-10 16:33:33 530

原创【HDFS篇10】DataNode相关概念

答应我一次做好一件事情就可以了DataNode相关概念DataNode工作机制一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的.

2020-07-09 10:38:46 676

原创【HDFS篇09】集群安全模式

一个微小的投入就会带来巨大的突变集群安全模式为什么出现集群安全模式呢？ Namenode启动时，首先将镜像文件载人内存，并执行编辑日志中的各项操作。一旦在內存中成功建立文件系统元数据的映像，则创建一个新的Fsimage文件和一个空的编辑日志。此时，** Namenode开始监听Datanode请求**。这个过程期间， Namenode一直运行在安全模式，即NameNode的文件系统对于客户端来说是只读的其实安全模式就是集群数据都还没准备好时候的一个保护机制DataNode启动发生的.

2020-07-08 17:45:17 228

原创【HDFS篇08】NameNode故障处理

记住，你的记忆效率=线索数量*线索质量NameNode故障处理问题场景：只配置了一个NameNode作为主节点，当它宕掉后如何恢复数据呢？方法一：拷贝SNN数据到NN存储数据的目录中kill -9 NameNode进程删除NameNode存储的数据（/opt/module/hadoop-2.7.2/data/tmp/dfs/name） rm -rf /opt/module/hadoop-2.7.2/data/tmp/dfs/name/*拷贝SecondaryNameNode中数据到.

2020-07-08 09:59:51 751

原创【HDFS篇07】NameNode和SecondearyNameNode

对未来真正的慷慨，是把一切献给现在NameNode和SecondaryNameNode工作机制第一阶段：NameNode启动（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。Fsimage文件（镜像文件）：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件idnode的序列化信息。Edits文件（编辑日志）：存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作.

2020-07-07 15:59:30 510

原创【HDFS篇06】HDFS数据读写流程

不断关联，不断加入，不断迭代，不断应用HDFS数据读写流程HDFS写数据流程客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。NameNode返回是否可以上传。客户端请求第一个 Block上传到哪几个DataNode服务器上。NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调.

2020-07-07 09:34:08 590

原创【HDFS篇05】HDFS客户端操作 --- IO流操作

输出倒逼输入HDFS客户端操作 --- IO流操作HDFS文件上传@Testpublic void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = new Configuration(); FileSystem fs = FileSystem.get(new URI("h.

2020-07-06 17:12:51 1892

原创【HDFS篇04】HDFS客户端操作 --- 文件操作

只有当知识写进你的长时记忆区，才是真正的学习HDFS客户端操作 --- 文件操作参数优先级测试1.编写测试方法，设置文件副本数量@Testpublic void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = new Configuration(); .

2020-07-06 10:36:24 639

原创【软件工具篇02】使用Anki克服遗忘曲线

使用Anki克服遗忘曲线艾宾浩斯遗忘曲线百度百科：遗忘曲线由德国心理学家艾宾浩斯研究发现，描述了人类大脑对新事物遗忘的规律。人体大脑对新事物遗忘的循序渐进的直观描述，人们可以从遗忘曲线中掌握遗忘规律并加以利用，从而提升自我记忆能力。该曲线对人类记忆认知研究产生了重大影响。关键词：新事物遗忘，提升自我记忆能力其实每个人的记忆遗忘曲线是不一样的，很多同学跟我说过总是学了就忘，*每次接触相当于从头开始进行学习，费事费力又费心。这个情况和我读高中时候背英语单词的时候很像，开始看英语课本

2020-07-03 16:59:38 1718

原创【HDFS篇03】HDFS客户端操作 --- 开发环境准备

存储越困难，提取越容易HDFS客户端操作---开发环境准备步骤一：编译对应HadoopJar包，配置Hadoop变量步骤二：创建Maven工程，导入pom依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <ve.

2020-07-03 16:37:03 613

原创【HDFS篇02】HDFS命令行操作

完成永远比完美重要HDFS的Shell操作基本语法hadoop fs 具体命令【推荐】hdfs dfs 具体命令常用命令大全启动Hadoop集群// 这些命令也都可以按照自己的方式组成脚本哦start-dfs.shstart-yarn.sh-help：输出这个命令参数hadoop fs -help rm-ls: 显示目录信息 hadoop fs -ls / hadoop fs -ls -R / 递归查看-mkdir：在HDFS上创建目录hadoop fs.

2020-07-03 10:39:02 675

原创【HDFS篇01】HDFS入门概述

真正的学习是去探索，思考和重建HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS定义 HDFS（ Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器.

2020-07-02 16:42:13 539

原创【Hadoop篇09】Hadoop序列化

知之为知之，不知为不知Hadoop序列化序列化概念序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。序列化作用 “活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机为什么不用Java的序列化 .

2020-07-02 10:36:31 575

原创【Hadoop篇08】Hadoop数据压缩

简洁而不简单Hadoop数据压缩数据压缩优点和缺点压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop下，尤其是数据规模很大和工作负载密集的情况下，使用数据压缩显得非常重要。在这种情况下，IO操作和网络数据传输要花大量的时间。还有， Shuffle与 Merge过程同样也面临着巨大的IO压力鳘于磁盘IO和网络带宽是 Hadoop的宝贵资源，数据压缩对于节省资源、最小化磁盘IO和网络传输非常有帮助。不过，尽管压缩与解压操作.

2020-07-01 16:35:53 615

原创【软件工具篇01】如何用思维导图构建自己的知识体系

如何用思维导图构建自己的知识体系思维导图是什么百度百科上说思维导图，英文是The Mind Map，又叫心智导图，是表达发散性思维的有效图形思维工具，它简单却又很有效，是一种实用性的思维工具关键词：发散性思维，图形思维工具思维导图的作用大脑的思考方式是放射性的，我们能思考总是先关注一个点，然后从这个点映射出去到其他知识点，从而来获得灵感解决问题，但这种映射可能不够全面，因为我们对知识点还不够熟悉，或者是遗忘了这些知识点，所以我们就需要思维导图来帮助我们进行知识点集合的关系构建，还

2020-07-01 10:28:43 1256

原创【Hadoop篇07】Hadoop集群脚本编写

积极乐观的态度是解决任何问题和战胜任何困难的第一步Hadoop集群脚本编写编写分发文件脚本应用场景如下：比如有三台主机master1,slave1,slave2如果简历完全分布式的集群就需要将文件从master1拷贝到slave从机上那么可以使用rsync命令分发单个文件，也可以使用如下脚本分发文件夹或者文件#!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出# $#代表获得命令行参数个数pcount=$#if((pcount==0)); thenecho n.

2020-06-30 15:59:17 726

原创【Hadoop篇06】Hadoop源码编译

没有谁必须要帮助你，任何事情都得靠自己去完成Hadoop源码编译准备工作（1）CentOS联网配置CentOS能连接外网。Linux虚拟机ping是畅通的注意：采用root角色编译，减少文件夹权限出现问题（2）jar包准备(hadoop源码、JDK8、maven、ant 、protobuf)（1）hadoop-2.7.2-src.tar.gz（2）jdk-8u144-linux-x64.tar.gz（3）apache-ant-1.9.9-bin.tar.gz（build工具，打包用的）.

2020-06-30 10:39:58 549

原创【Hadoop篇05】Hadoop配置集群时间同步

做任何事都要经受得挫折，要有恒心和毅力，满怀信心坚持到底Hadoop配置集群事件同步时间同步方式找一台机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间配置时间同步步骤1.时间服务器配置（必须root用户）rpm -qa|grep ntp2.修改ntp配置文件vi /etc/ntp.conf修改内容如下a）修改1（授权192.168.1.0网段上的所有机器可以从这台机器上查询和同步时间）打开限制#restrict 192.168.1.

2020-06-29 16:30:57 721

原创【Hadoop篇04】Hadoop配置日志聚集

成长这一路就是懂得闭嘴努力，知道低调谦逊，学会强大自己，在每一个值得珍惜的日子里，拼命去成为自己想成为的人Hadoop配置日志聚集应用场景为了让应用运行完成以后，将程序运行日志信息上传到HDFS系统上，有了日志之后就可以查看程序中的报错信息，从而调试程序配置步骤1.配置yarn-site.xml<property> <name>yarn.log-aggregation-enable</name.

2020-06-29 16:22:43 669

原创【2020版冲刺年薪30W】超全大数据学习路线+思维导图

大数据学习路线下面和大家讲一下大数据学习的路线，帮助大家快速进入大数据行业。我会结合自己的实际经历还说明学习路线。该路线针对的对象是零基础小白，目标是到初中级大数据工程师，要求掌握数据建模，数据存储，数据存储，数据传输，数据分析等能力达到大数据岗位的应聘标准。（一）Java基础和web开发很多人问过我，学大数据要不要学Java，我的答案是肯定的。首先Java是一门面向对象的编程语言，也是一门应用非常之广的语言，对于零基础的小白必须先有一些基本的编码能力和面向对象编程的思想。其次很多

2020-06-29 09:29:57 747

原创【Hadoop篇03】Hadoop配置历史服务

天空才是你的极限Hadoop配置历史服务器应用场景为了查看运行过程序的情况，因此需要配置历史服务器配置步骤1.配置mapred-site.xml<property> <name>mapreduce.jobhistory.address</name> <value>hadoop102:10020</value></property><.

2020-06-28 16:34:21 608

原创【Hadoop篇02】Hadoop完全分布式环境搭建

优于别人，并不高贵，真正的高贵应该是优于过去的自己Hadoop完全分布式环境搭建编写分发文件脚本应用场景如下：比如有三台主机master1,slave1,slave2如果简历完全分布式的集群就需要将文件从master1拷贝到slave从机上那么可以使用rsync命令分发单个文件，也可以使用如下脚本分发文件夹或者文件#!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出# $#代表获得命令行参数个数pcount=$#if((pcount==0)); thenech.

2020-06-28 11:16:32 573

原创【Hadoop篇01】Hadoop单机模式环境搭建

生命中真正重要的不是你遭遇了什么，而是你记住了哪些事，又是如何铭记的Hadoop本地模式环境搭建一.准备虚拟机环境（1）克隆虚拟机使用VMware克隆三台虚拟机（2）修改主机名vim /etc/hosts（3）配置IP为静态IPifconfig（4）配置ip和域名之间的映射（5）创建用户, 并设置密码useradd zhutiansamapasswd 123456（6）给用户配置具有root权限root ALL=(ALL) ALLzhutiansama A.

2020-06-28 10:31:51 742

原创【Tensorflow安装汇总】Conda直装超级简单！！！

Tensorflow硬件检查检查显卡版本更新显卡版本英伟达显卡版本更新的非常频繁，一定要保证显卡驱动是最新的（很多人就是因为不是最新的版本而报错）去更新显卡驱动官网下载最新版https://www.geforce.cn/drivers/results/155099可以查看这篇教程安装https://www.cnblogs.com/cupwwj/p/11715076.html不...

2020-03-18 17:04:50 249

原创即时通讯整体解决方案

即时通讯整体解决方案细节：即时通讯简称IM（Instant Messaging）需求：用户不只是在消息通知页面可以看到消息，而是在所有页面都能马上得到关注的消息思考：http只有请求才有响应，但是上面的需求需要服务器主动把关注的消息推送给你，http无法满足IM的类型：在线推送和离线推送（区别在于应用是否打开）IM如何构建：我们可以自己搭建WebSocket来推送，或者使用第三方IM服...

2019-11-01 16:53:58 1435

原创 Elasticsearch全文检索解决方案（下）

文档文档的三大元数据：_index 存放位置_type 文档表示的对象类别_id 文档的唯一标识自己设置文档的id：PUT /{index}/{type}/{id}curl -X PUT 127.0.0.1:9200/articles/article/150000 -H 'Content-Type:application/json' -d '{ "article_id":...

2019-10-25 17:12:17 828

原创 Elasticsearch全文检索解决方案（上）

Elasticsearch全文检索解决方案（上）ES = 数据库 + 搜索引擎概念：它提供了一个分布式、支持多用户的全文搜索引擎，**具有HTTP Web接口和无模式JSON文档。**所有其他语言可以使用 RESTful API 通过端口 *9200* 和 Elasticsearch 进行通信。Elasticsearch是用Java开发的Elasticsearch是最受欢迎的企业搜索...

2019-10-25 17:06:12 1358 1

FocusBigData博客