自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 2021-01-31 大数据课程笔记 day11

@R星校长课程内容mapreduce 原语(独创)mapreduce 工作流程(重点)MR 作业提交流程(重点)YARN RM-HA 搭建(熟练)运行自带的 wordcount(了解)动手写 wordcount(熟练)MapReduce 概述Google 发表了两篇论文《Google File System》 《Google MapReduce》《Google File System》简称 GFS,是 Google 公司用于解决海量数据存储的文件系统。《Google MapRedu.

2021-01-31 23:17:12 36

原创 CentOS 7 链接克隆的虚拟机需要改那些配置?

@R星校长拿 node0 母机的配置和 node3 链接克隆机做对比,我们会发现,UUID 和 IPADDP ,HWADDR 都一样,所以我们需要改这三个地方,其中 IPADDP 是修改一下主机地址,HWADDR 需要改成网卡新生成的硬件地址,而 UUID 直接删除,使用 Esc 模式下,光标移动到对应位置然后敲击 dd,两下 d 删除光标所在行查看/etc/udev/rules.d/ 下 是否又 70-persistent-net.rules 文件 (我机子上没有,有也可以删除,这里介绍一种.

2021-01-31 18:25:11 21

原创 CentOS 7 开启防火墙及特定端口 & service iptables start 报 Redirecting to /bin/systemctl start iptables.service

@R星校长

2021-01-31 13:25:13 18

原创 service network restart 失败 & SSH远程登录失败 & 网卡命名

Google 给出的答案,跟系统自带的 NetworkManager 这个管理套件有关系,关掉就可以解决。systemctl stop NetworkManagersystemctl disable NetworkManager重新启动网络:systemctl start network.service最好重启虚拟机或重启 reboot,再次查看网络 systemctl status network。ip addr网络正常启动,访问正常。...

2021-01-31 01:14:49 28

原创 2021-01-30 大数据课程笔记 day10

@R星校长课程重点HDFS 完全分布式搭建(熟练)Hadoop 3.x 新特性(了解)Hadoop Federation(了解)Hadoop HA(掌握)Hadoop HA 集群搭建(熟练)java 客户端操作 HDFS(熟练)HDFS 完全分布式搭建规划node1node2node3node4NameNodeSecondaryNameNodeDataNode-1DataNode-2DataNode-3基础设置a) 网络b) ssh.

2021-01-30 15:31:17 51

原创 2021-01-29 大数据课程笔记 day9

@R星校长hadoop 第一天Hadoop一共六天课程:分布式存储 两天MapReduce计算 两天案例 两天第一天内容安排1T文件操作(训练)hadoop起源(了解)HDFS架构(重点)数据块副本放置策略(重点)HDFS的权限(了解)hadoop的安全模式(理解)HDFS写文件流程(重点)HDFS读文件流程(重点)伪分布式搭建(熟练)热身1T文件操作的思考:分治思想单机处理大数据的问题集群分布式处理大数据的辩证分治思想引入案例十万个元素(数字或单词.

2021-01-29 21:33:25 104

原创 2021-01-28 大数据课程笔记 day8

@R星校长ZooKeeper 基础为什么使用 ZooKeeper?集群存在大量服务器时,出现故障时在所难免的,那么如何快速知道哪些服务器出现故障?Nginx 作为负载均衡管理大量服务器时,管理起来比较麻烦,可以通过 zookeeper 注册服务与发现服务协作管理。以前大部分应用需要开发私有的协调程序,缺乏一个通用的机制协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器使用分布式部署后,多线程安全的问题,以前学的同步代码块、重构锁、读写锁等通通失效,怎么办?ZooKeeper概述.

2021-01-28 19:53:56 28

原创 2021-01-27 大数据课程笔记 day7

@R星校长Nginx问题引入单个 tomcat 支持最高并发怎么解决高并发问题,解决单个服务器过载问题?Nginx概述Nginx 介绍1、 Nginx (“engine x”) 是一个高性能的 静态HTTP 和 反向代理 服务器,也是一个 IMAP/POP3/SMTP 代理服务器。2、 第一个公开版本0.1.0发布于2004年10月4日。3、 其将源代码以类 BSD 许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名4、 官方测试 nginx .

2021-01-27 23:54:34 118

原创 2021-01-26 大数据课程笔记 day6

@R星校长Linux 中软件安装方式rpm安装软件rpm概述RPM(RedHat Package Manager)安装管理这个机制最早是由 Red Hat 开发出来,后来实在很好用,因此很多 distributions(发行版)就使用这个机制来作为软件安装的管理方式 。包括 Fedora , CentOS , SuSE 等等知名的开发商。RPM 的优点RPM 内含已经编译过的程序与配置文件等数据,可以让用户免除重 新编译的困扰RPM 在被安装之前,会先检查系统的硬盘容量、操作系统版.

2021-01-26 23:55:46 47

原创 2021-01-25 大数据课程笔记 day5

@R星校长Linuxcutcut:显示切割的行数据s:不显示没有分隔符的行d:指定分隔符对源文件的行进行分割-f 选定显示哪些列m-n m列到n列-n 第一列到n列m- 第m列到最后列n 第n列以: 作为分隔符,切割 passwd ,输出从第 3 个字段到第 5 个字段cut -d ":" -f 3-5 /etc/passwd输出前两列内容:cp /etc/passwd ./cut -d ":" -f -2 passwd输出字段 3 到最后一个字段指定输.

2021-01-25 22:17:56 27

原创 2021-01-24 大数据课程笔记 day4

@R星校长cd 命令练习:我们知道 hadoop 这个用户的主文件夹是 /home/hadoop/ ,而 root 用户的主文件夹是 /root/ ,我们使用 root 账号登录,完成以下练习:cd [绝对路劲或相对路径或特殊符号]如何从其它目录切换目录到 hadoop 用户的主文件夹:方式一:绝对路径的方式方式二:特殊符号如何回到 root 用户自己的主文件夹?方式一:绝对路径的方式cd /root/方式二:特殊符号方式cd ~如何回到刚才访问的目录(不论是哪一个目录)?c.

2021-01-24 23:52:37 44

原创 2021-01-23 大数据课程笔记 day3

@R星校长输入:“vi /etc/hosts”编辑hosts文件,添加本地解析条目添加如下条目:此时域名node0、node1、node2、node3、node4会被解析为配置的IP地址。保存退出。上图可见,在 ping node0 的时候,node0 解析为了192.168.20.100。这个时候就可以使用 XShell 工具连接来远程连接虚拟机操作系统进行工作了。打开 XShell ,输入 “ssh root@192.168.20.100” 回车,在弹出的对话框中输入密码:123.

2021-01-23 21:32:25 48

原创 2021-01-22 大数据课程笔记 day2

安装vmware软件(已安装的不需要重启安装)上述两个版本,根据系统不同来安装,建议使用VMware12.5.6版本的VMware。win10版本在1903,则安装15版本的vmware而我用的版本是20H2,所以索性用15pro版本 Windows 10 专业版版本号 20H2安装日期 ‎2020-‎11-‎03操作系统版本 19042.746体验 Windows Feature Experience Pack 120.2212.551.0安装Xshell.exe和Xftp.exe

2021-01-22 20:29:33 63

原创 2021-01-21 大数据课程笔记 day1

@R星校长内存的访问效率是硬盘的10万倍Zoo 动物园 Keeper 管理者 因为 hadoop 大象 pig 小猪 都是他们开发的,再有一些这样的起名的软件,我们就成动物园了 ,所以我们这款产品就叫动物园管理员吧如你有几千台服务器的集群,你就需要用 ZooKeeper 监控,看那台服务器宕机了ElasticSearch 学起来很快,因为它是站在巨人 Lucene 的肩膀上因为实时计算 Spark 的底层代码是用 Scala 写的,所以 Scala 也需要学习,配合 Spark 做实时.

2021-01-21 20:58:04 38

原创 case when 数据透视图

@R星校长Table 1IDTypeIs_active1AY1BN2AY2CY3CY假设表格1有三列,分别是 商场id比如 商场1 商场2 商场3产品类别比如A B C 是否在售 : Y 表示 Yes 在售 N表示No现在想转化成透视表格,也就是每个商场用一行写清楚要把同一个商场的所有记录整合成一行,还需要结合使用 GROUP BY一步步来,先看没有 GROUP BY 的情况select id,case when t.

2021-01-14 17:58:26 30

原创 Leetcode 进阶题

511.Game Play Analysis 1This table shows the activity of players of some game.这张表显示了一些游戏玩家的活动情况。Each row is a record of a player who logged in and played a number of games(possibly 0) before logging out on some day using some device.每一行都是一位玩家的记录,他在某一天

2021-01-14 16:34:56 17

原创 sklearn数据预处理(一)

@R星校长第1关:标准化为什么要进行标准化,Z-score标准化,Min-max标准化,MaxAbs标准化。为什么要进行标准化对于大多数数据挖掘算法来说,数据集的标准化是基本要求。这是因为,如果特征不服从或者近似服从标准正态分布(即,零均值、单位标准差的正态分布)的话,算法的表现会大打折扣。实际上,我们经常忽略数据的分布形状,而仅仅做零均值、单位标准差的处理。在一个机器学习算法的目标函数里的很多元素所有特征都近似零均值,方差具有相同的阶。如果某个特征的方差的数量级大于其它的特征,那么,这.

2021-01-07 00:56:49 30

原创 Pandas数据预处理(三)

@R星校长第3关:标准化数据本关任务:使用read_csv()加载数据集data1和data2,然后按照编程要求对数据进行合并和清洗,最后将数据标准化。相关知识数据标准化处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲(将一个物理导出量用若干个基本量的乘方之积表示出来的表达式,称为该物理量的量纲式,简称量纲)和量纲单位,当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。为了消除指标之间的量纲影响,保证结果.

2021-01-05 23:11:01 24

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除