大数据学习之路
文章平均质量分 82
这个系列是大数据相关知识,大致包含五个方面,第一个个阶段是linux和高并发基本知识;第二个是hadoop体系的离线计算;第三个阶段是spark体系的分布式计算;第四个阶段是机器学习和数据挖掘相关部分,最后第 五阶段是大数据项目实战
敲代码的乔帮主
走在梦想的大道上,跌跌撞撞,时而悲伤,时而难过失落,是什么又让我扬起头继续向前呢?是心中的那一朵彼岸之花,牵使着你我之间的约定,成为我心中那一股永不可灭的骨气,终究是信仰。
展开
-
大数据学习之路
这个系列是大数据相关知识,大致包含五个方面,第一个阶段是linux和高并发基本知识;第二个是hadoop体系的离线计算;第三个阶段是spark体系的分布式计算;第四个阶段是机器学习和数据挖掘相关部分;最后第五阶段是大数据项目实战。原创 2020-02-22 17:42:14 · 2357 阅读 · 3 评论 -
1.1.1 linux和高并发-linux操作系统-linux虚拟机的安装
首先安装VMware,然后在上面安装linux系统(centos),red hat也是一个linux系统,盈利模式属于销售服务。我们之前讲过一流公司卖标准,二流公司卖服务,三流公司卖产品。 安装重要过程记录:(1)新建虚拟机-自定义安装 (2)选择稍后安装操作系统 (3)虚拟机选择linux系统,版本选择Centos 64bit (4)虚拟机名称,是在VM...原创 2020-02-16 12:15:04 · 388 阅读 · 0 评论 -
1.1.2 linux和高并发-linux操作系统-linux网络配置
上一篇博客我们已经把我们的虚拟机安装好了,我们第一件事就是要做配置网络,没有网络什么都做不好。我们使用命令ifconfig查看我们的网络配置信息,127.0.0.1是本地环回地址,等同于windows中的ipconfig命令。 windows中一般是自动获取的ip,我们要指定ip值,同我们windows里面一样,我们需要知道哪一个目录下面的文件再负责这个东西c...原创 2020-02-16 13:36:19 · 422 阅读 · 0 评论 -
1.1.3 linux和高并发-linux操作系统-linux简单命令学习
1.写在前面 经过以前的各种操作,我们已经建立了4个node机器,分别是node01,node02,node03,node04。我们分别对这四个机器进行了网络配置工作,设置了各自的ip地址,我们接下来学习linux相关命令。方便对于工具的学习。 我们在以后的学习中,将尽量使用Xshell工具,来连接虚拟机器,执行命令进行操作。Xshell的使用也是非常简单,下载...原创 2020-02-17 10:02:47 · 506 阅读 · 0 评论 -
1.1.4 linux和高并发-linux操作系统-linux文件系统
1.写在前面 我们之前讲了几个重点使用的命令,type和file告诉我们一个未知命令是外部命令还是内部命令,man和help命令分别可以查找外部命令和内部命令的使用规则。另外我们还涉及到了echo标准输出和变量的定义问题。这篇文章我们将重点讲解linux中的文件系统命令。我们的windows系统中文件系统是比较乱的,每个系统盘下面都可以建立很多文件夹,每一个文件夹都可以放置不同类...原创 2020-02-18 08:56:25 · 483 阅读 · 1 评论 -
1.2.1 linux和高并发-linux基本命令-linux文件系统命令
1.写在前面 上一个博客介绍了linux文件系统结构,在运行linux中避免不了文件或者文件夹的操作,这次我们来总结一下linux中基本的文件系统命令。2.df 显示磁盘使用情况3.du 显示文件系统使用情况(某一个文件、文件夹占用大小)4.ls、ll展示某一个文件夹下面所有文件 ls可以查看多个目录,ls -a隐藏文件也出来了,ls ...原创 2020-02-18 20:50:23 · 428 阅读 · 4 评论 -
1.2.2 linux和高并发-linux基本命令-vi全屏文本编辑器
1.写在前面原创 2020-02-19 15:37:00 · 311 阅读 · 0 评论 -
1.2.3 linux和高并发-linux基本命令-正则表达式
1.写在前面 我相信大部分同学对于正则表达式是熟悉的,我们平时用到的搜索查找一般是静态的。但是正则可以处理动态的查找问题,比如我们网页中有各种各样的url,每一个url是不一样的,要求我们查找一个网页中所有的url,显然静态直接查找是无法完成这个任务的,我们就用到了正则表达式。2.grep显示匹配行3.正则表达式-匹配操作符4.正则表达式-重复操作符5...原创 2020-02-19 16:28:49 · 292 阅读 · 0 评论 -
1.2.4 linux和高并发-linux基本命令-文本分析
1.写在前面 我们在学习过程中避免不了和文本打交道,文本分析也是我们学习的重要一个知识点。这篇博客我们带着学习文本分析常用到的命令,方便我们以后的学习研究。我们将重点介绍 cut 、sort、 wc 、sed > vi 、awk 这5个命令。2. cut 显示切割的行数据 我们还是拿上次的grep.txt文件做实验,我们先看一下这个文件,这个文...原创 2020-02-21 09:27:39 · 317 阅读 · 0 评论 -
1.2.5 linux和高并发-linux基本命令-linux用户与权限
1.写在前面 无论是windows,还是linux,都需要用户名和密码,一般情况下,我们很少使用root用户登录,root拥有最高权限,在公司直接使用root用户肯定是不被允许的。我们在公司一般给一个普通用户,满足计算机基本操作。 这篇博客我们将讲解一下关于linux中用户的基本知识。2.userdel 删除用户(记得删除掉家目录和邮箱)3.useradd 新建一个...原创 2020-02-21 18:54:41 · 376 阅读 · 0 评论 -
1.2.6 linux和高并发-linux基本命令-linux环境变量配置说明
Linux 的环境变量可在多个文件中配置,如 /etc/profile,/etc/profile.d/*.sh,~/.bashrc, ~/.bash_profile 等,那么配置在不同的位置,都有哪些区别呢?我之前也没有太在意过这个问题,一般我喜欢配置在/etc/profile下面,也没有出过什么问题。最近在看一些文章的时候,发现大家配置环境的位置各式各样,搜集了一些相关信息,总结一下区别。1.交互式shell和非交互式shell首先我们要弄明白两个概念,bash的运...原创 2022-01-04 19:59:53 · 667 阅读 · 0 评论 -
1.3.1 linux和高并发-linux软件安装-linux编译安装
1.写在前面 这次我们主要介绍一下linux中软件安装的相关知识,windows安装一个软件是比较复杂的,从寻找安装包到配置路径。人使用系统的目的是使用应用程序,很多人感觉linux很陌生的原因也很简单,很多人打开linux之后,弹出来一个黑窗口,很多人看到就比较懵,不知道要干啥。操作系统抛离开来应用程序是没有意义的,所以我们这节将介绍这块内容,主要包含三个部分:编译安装、rpm...原创 2020-02-22 16:49:32 · 295 阅读 · 0 评论 -
1.3.2 linux和高并发-linux软件安装-rpm软件安装
1.写在前面 我们上一篇博客重点介绍了linux编译安装,我们安装并且测试了nginx。可以看到这个编译安装整个过程是复杂没有效率的。我们在平时开发环境中很少用到编译安装,我们这次介绍一个比较简单一点的安装方式rpm安装方式,这种安装方式和我们在windows中利用软件管理软件一键安装或者一键卸载差不多。每一个平台都有自己独特的rpm包。2.RPM安装:包---安装jdk...原创 2020-02-23 13:17:32 · 293 阅读 · 0 评论 -
1.3.3 linux和高并发-linux软件安装-yum安装及配置
目录1.写在前面2.yum安装方式3.修改yum的配置(配置阿里云镜像站)3.如何配置本地源4.yum中的命令5.中文显示,查看中文文档1.写在前面 我们上次重点讲解了rpm的安装过程,但我们在使用rpm的过程中,经常用到一些软件需要依赖问题,导致安装失败,我们需要将依赖重新安装好之后,才能安装成功。这个过程一般也是很低效率的。所以rpm没有依赖问题的...原创 2020-02-24 12:54:23 · 455 阅读 · 0 评论 -
1.4.1 linux和高并发-shell编程-bash
1.写在前面 我们前面讲了linux系统中怎么安装一个我们需要的软件,重点讲解了三种方式:linux编译安装+rpm安装+yum安装,我们不知不觉已经学习了好多linux相关知识了,从安装系统,学习了简单命令,讲解了文件系统和简单文本操作。我们简单认识了vi环境,熟悉了正则表达式,文本编辑、用户管理、权限管理、安装软件等。这篇博客我们将介绍脚本编程相关知识。这个地方一般由公司的运...原创 2020-02-25 13:41:00 · 389 阅读 · 0 评论 -
1.4.2 linux和高并发-shell编程-文本流及重定向
1.写在前面 我们上次简单提了一下bash,bash还有一些比较重要的内容,我们想放到后面讲管道知识的时候在再重点提及。这次呢先讲一下文本流和重定向的知识。我个人认为,脚本编程是非常重要的一个环节,是无法替代的,自动化一直以来是人们追求的梦想。2.文本流&重定向 流和我们java中文件流差不多,有输入有输出。那么重定向是什么呢?web中有转发和重定向...原创 2020-02-26 10:41:55 · 364 阅读 · 0 评论 -
1.4.3 linux和高并发-shell编程-变量和函数
1.写在前面原创 2020-02-29 16:28:15 · 471 阅读 · 0 评论 -
1.4.4 linux和高并发-shell编程-引用和逻辑判断
1.写在前面原创 2020-03-30 10:30:12 · 290 阅读 · 0 评论 -
1.4.5 linux和高并发-shell编程-表达式(算术表达式+条件表达式)
目录1.写在前面2.算术表达式let3.条件表达式test1.写在前面 我们今天这一章讲解表达式的概念,我们学过java应该懂,表达式有条件表达式,算术表达式等。2.算术表达式let 算术表达式一共有三种写法,其中第一种和第三种用得比较多,需要重点掌握。第三种两个括号里面可以不加美元符号,这种方法相对而言比较简单一些。 ...原创 2020-03-30 15:38:40 · 331 阅读 · 0 评论 -
1.4.6 linux和高并发-shell编程-添加用户脚本
目录1.写在前面2.需求分析3.bash命令行流程熟悉4.添加用户脚本1.写在前面 我们在之前的学习过程中,已经重点讲解了关于脚本的基本知识,包括脚本的变量,引用和逻辑判断以及表达式的概念。我们现在就开始正式的进行脚本的写作。2.需求分析 我们首先做一个需求分析:一共有5个需求3.bash命令行流程熟悉 首先我们...原创 2020-03-31 11:29:59 · 297 阅读 · 0 评论 -
1.4.7 linux和高并发-shell编程-流程控制
目录1.写在前面2. if 流程控制2.1 help if2.2 if 流程控制实例3. while 流程控制3.1 help while3.2 while 流程控制实例4. for 流程控制4.1 help for4.2 for 流程控制实例5.练习题1.写在前面 我们前面介绍了脚本的基本知识,这篇博客重点讲解关于linux脚本中...原创 2020-03-31 17:37:40 · 222 阅读 · 0 评论 -
1.4.8 linux和高并发-shell编程-shell脚本编程总结
目录1.写在前面2.需求分析3.脚本编写 1.写在前面 我们在之前已经重点讲解过了关于linux中shell编程的基本知识。这节课我们根据需求做个实践,加深一下对shell脚本编程这部分知识的掌握。2.需求分析 首先,我们先定义一个文件file.txt,我们需要循环遍历输出每一行,并且打印文件的行数。3.脚本编写...原创 2020-03-31 18:50:18 · 357 阅读 · 0 评论 -
1.4.9 linux和高并发-shell编程-shell分发脚本
1.前置准备CentOS7、jdk1.8安装rsync:yum install rsync -y (远程分发)2.简单了解 basename:会删掉所有的前缀包括最后一个(‘/’)字符,然后将字符串显示出来 dirname(父级目录):从给定的包含绝对路径的文件名中去除文件名(非目录部分),然后返回剩下的路径(目录的部分) Shell数组用括号来表示,元素用空格符号分割,Shell中使用@ 或 * 可以获取数组中的所有元素...原创 2020-10-23 16:38:00 · 209 阅读 · 0 评论 -
1.4.10 linux和高并发-shell编程-Zookeeper启动脚本(启动,停止,查看状态)
1.简单了解 登录式 Shell, 采用用户名密码,比如 xiaokang 登录, 会自动加载/etc/profile 非登录式 Shell, 采用 ssh 比如 ssh hadoop02 登录, 不会自动加载/etc/profile, 会自动加载~/.bashrc 想要通过非登录式 Shell 来使用其它节点的环境变量就需要做以下操作:# 1.将当前节点的/etc/profile中已经配置好的环境变量复制到/etc/profile.d/env.sh(此文件需要手动创建)[x原创 2020-10-27 16:10:26 · 176 阅读 · 0 评论 -
1.4.11 linux和高并发-shell编程-查看集群进程脚本
call-cluster.sh#!/bin/bashUSAGE="使用方法:sh call-cluster.sh jps or sh call-cluster.sh 'jps;java -version'"if [ $# -eq 0 ];then echo $USAGE exit 1fiNODES=("h2node01" "h2node02" "h2node03")for NODE in ${NODES[*]};do echo "-----原创 2020-12-22 12:56:48 · 192 阅读 · 0 评论 -
1.4.12 linux和高并发-shell编程-ha-hadoop脚本编写
目录1、简单了解2、脚本源码3、测试使用1、简单了解 $*表示传递给函数或脚本的所有参数,被双引号""包含时,“$*”会将所有的参数作为一个整体 延时函数sleep,默认以秒为单位,也可以自己指定延迟的单位。 sleep 1s 延迟一秒 sleep 1m 延迟一分钟 sleep 1h 延迟一小时 sleep 1d 延迟一天 2、脚本源码#!/bin/bashUSAGE="使用方法:sh ha-hadoop.sh start/stop/stat原创 2020-12-22 13:00:51 · 213 阅读 · 0 评论 -
1.5.1 linux和高并发-网络基础知识-高并发与负载均衡之理论
1.写在前面 学习技术之前我们要明白前因后果。现在上网人数在不断增加,商业当中有一个黄金分割比例28分割,用20%计算真实网民数量,也有好几亿。中国数据产量是非常巨大的,大数据技术有很大的缺口和需求,而且生活节奏也在不断地加快,IT互联网时代也已经到达了BT数据时代。压力都集中在了service服务器端,很明显一台服务器,几台服务器肯定是满足不了需求的。Tomcat访问量仅仅达到...原创 2020-03-31 21:23:39 · 264 阅读 · 0 评论 -
1.5.2 linux和高并发-网络基础知识-网络TCP/IP基础知识
1.写在前面 要想学习负载均衡技术,首先需要了解网络相关基础知识。我们这篇博客简单带着大家串一下基本知识。首先我们要了解两个名词,一个是TCP/IP,这个是一个协议;另外一个是OSI ,这个是计算机网络7层参考模型。2.OSI七层参考模型 从上往下分别有应用层、表示层、会话层、传输层、网络层、链路层、物理层。在这之中,nginx是一个软件工作...原创 2020-07-18 13:56:03 · 192 阅读 · 0 评论 -
1.6.1 linux和高并发-lvs集群和高并发-lvs中3种模型推导
目录1.写在前面2.四层的负载均衡拓扑图3.DR模型(直接路由模型)3.1 SNAT(源地址转换)3.2 DNAT(目标地址转换)4.TUN隧道模型1.写在前面 这部分我们开始看负载均衡中lvs技术,首先,我们先确定一些名词代表的含义,比如VIP、DIP等。无论我们使用什么负载均衡技术对于客户端是隐藏的,客户端只关心输入和输出过程。2.四层的负载均衡拓扑图(1)当所有客户端请求来到负载均衡服务器,我们使用lvs四层负载技术,负载均衡服务器仅仅转发...原创 2020-07-18 15:35:58 · 233 阅读 · 0 评论 -
1.6.2 linux和高并发-lvs集群和高并发-lvs功能配置介绍
目录1.写在前面2.LVS-DR模型实验拓扑图3.隐藏VIP方法:对外隐藏,对内可见4.IPVS(IP虚拟服务器 IP Virtual Server,简写为IPVS)+调度算法4.1 IPVS(IP虚拟服务器)4.2 LVS调度方法5.LVS命令,监控多个端口号1.写在前面 LVS是Linux Virtual Server的简写,意即Linux虚拟服务器,是一个虚拟的服务器集群系统。本项目在1998年5月由章文嵩博士成立,是中国国内最早出现的自由软件项目之一...原创 2020-07-19 00:06:06 · 264 阅读 · 0 评论 -
1.6.3 linux和高并发-lvs集群和高并发-lvs中DR模型实验
目录1.写在前面2.实验说明3.实验过程3.1 查看三台虚拟机地址3.2 配置虚拟机的网络3.3 配置LVS的VIP3.4 调整RS(real server)响应、通告级别(每一台RS都配置)3.5 配置RS的VIP(每一台RS都配置)3.6 LVS验证阶段3.6.1 启动RS上的httpd服务3.6.2 LVS的配置1.写在前面 这篇博客我们将手把手带着大家搭建lvs中DR模型。2.实验说明3.实验过程3.1 查看三台虚拟机...原创 2020-07-19 01:04:59 · 275 阅读 · 0 评论 -
1.7.1 linux和高并发-nginx集群和高并发-反向代理概念
1.写在前面原创 2020-07-19 11:19:47 · 351 阅读 · 0 评论 -
1.7.2 linux和高并发-nginx集群和高并发-Nginx的安装和配置
1.写在前面 Nginx(engine x) 是一个高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务。Nginx是由伊戈尔·赛索耶夫为俄罗斯访问量第二的Rambler.ru站点(俄文:Рамблер)开发的,第一个公开版本0.1.0发布于2004年10月4日。 其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。2011年6月1日,nginx 1.0.4发布。 ...原创 2020-07-30 14:53:21 · 465 阅读 · 0 评论 -
1.7.3 linux和高并发-nginx集群和高并发-Nginx反向代理和负载均衡实战
目录1.写在前面2.实验一:实现nginx的虚拟服务器功能3.实验二:解决Nginx链接跳转问题4.实验三:nginx给两台tomcat的RealServer做负载均衡,返回Session不同并解决Session一致性的问题1.写在前面 接下来拿着Nginx做几个比较常见的实验。2.实验一:实现nginx的虚拟服务器功能 在做实验前,我们需要提前修改本机windows中host文件,设置ip与域名映射关系。 接下来,我们直接在...原创 2020-08-01 20:12:09 · 329 阅读 · 0 评论 -
1.8.1 linux和高并发-keepalived和单点故障-keepalived概念
目录1.写在前面2.keepalived概念说明3.工作原理3.1VRRP协议与工作原理3.2 keepalived的工作原理4.keepalived软件的功能1.写在前面 LVS存在的问题:1、LVS存在单点故障,导致服务不能访问;2、真实机存在单点故障,导致部分用户能访问。我们类比成,国王去世后究竟选择哪一个王子继位问题。2.keepalived概念说明 Keepalived是Linux下一个轻量级别的高可用解决方案。高可用(High...原创 2020-08-01 22:55:16 · 395 阅读 · 0 评论 -
1.8.2 linux和高并发-keepalived和单点故障-keepalived安装和实验
目录1.写在前面2.keepalived的安装和配置文件说明2.1 安装概述2.2keepalived配置文件说明3.安装细节 3.1 node01使用yum安装keepalived3.2 开启一个node04做为LVS服务器3.3 node01中修改keepalived配置文件3.4 node04修改keepalived配置文件3.5 node01中启动keepalived3.6 客户端验证3.7 启动node04中keepalived服务...原创 2020-08-02 00:16:14 · 312 阅读 · 0 评论 -
2.1.0 hadoop体系之离线计算-hdfs分布式文件系统-基本环境配置
目录1.虚拟机关闭防火墙2.机器关闭selinux3.机器免密码登陆4.机器时钟同步1.虚拟机关闭防火墙service iptables stop #关闭防火墙chkconfig iptables off #禁止开机启动2.机器关闭selinux什么是SELinux SELinux是Linux的一种安全子系统 Linux中的权限管理是针对于文件的, 而不是针对进程的, 也就是说, 如果root启动了某个进程, 则这个进程可以操作任何一个文件 SELinux原创 2020-09-29 15:25:16 · 238 阅读 · 0 评论 -
2.1.1 hadoop体系之离线计算-hdfs分布式文件系统-hadoop简介
目录1.Hadoop介绍2.Hadoop发展简史3.Hadoop特性优点4.Hadoop国内外应用1.Hadoop介绍 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。 狭义上说,Hadoop指Apache这款开源框架,它的核心组件有: COMMON(公共):公共工具,支撑其他Hadoop模块 ...原创 2020-08-02 18:21:00 · 373 阅读 · 0 评论 -
2.1.2 hadoop体系之离线计算-hdfs分布式文件系统-存储模型(hdfs分布式存储系统)
hadoop的存储模型整个思想就是:化整为零、并行计算。 第一步:如果一个文件非常非常大,单台服务器的内存无法处理这样一个大文件,无法一次性加载到内存中,可以对文件切割成若干个小文件。第二步:为了达到提升计算效果的目的,可以把切割的小文件分散发送到多台服务器之上,让服务器并行计算小文件,由于每台服务器它所计算得数据量比较小同时他们又是并行的,就可以达到分而治之的目的。以上即分布式存储和分布式计算。 下面就谈及到了第一个问题,文件的切割。文件线性切割成块bl...原创 2020-09-07 13:56:34 · 226 阅读 · 0 评论 -
2.1.3 hadoop体系之离线计算-hdfs分布式文件系统-副本机制+node工作机制+HDFS文件读写过程
我们的认知深度已经从数据模型到架构模型到决策模型。下面我们详细讲解一下其副本放置策略问题。白色的是我们的数据,黑色的是我们产生的三个副本,这三个副本应该怎么放置呢?有什么样的一个策略呢? 机柜中除了放置服务器之外还会放置交换机,每个交换机专门为一台机柜配备,用于设备之间通信。每台机柜有条线,用于连接交换机,直接从交换机跳到服务器点对点的连接。除了配置交换机,机柜中还有一个电源模块,这个电源模块控制机柜的电源输出。电源模块、交换机与机柜中的服务器组成了一个最小的单元,其中...原创 2020-09-07 14:23:02 · 242 阅读 · 0 评论