自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(127)
  • 收藏
  • 关注

原创 十八、本地配置Hive

在前面,使用的root用户,但是启动集群时,需要使用到Hadoop用户,所以这里我们需要将/export/server/路径下的hive 和apache-hive-3.1.3-bin的用户和用户组划给Hadoop,以便我们后序的使用。如果初始化成功,那么再次进入MySQL,我们可以在MySQL的hive库中看见274张新建的元数据的表。切换到Hadoop用户创建logs文件夹。需要注意,此处应该将用户切换为Hadoop。注意,需要提前开启hsfs和yarn集群。需要注意,此处应该切换到Hadoop用户。

2023-12-23 14:53:42 1017

原创 十七、如何将MapReduce程序提交到YARN运行

对于这些Hadoop内置的程序,他们都存储在hadoop-mapreduce-examples-3.3.6.jar中,如wordcount单词计数程序、pi求圆周率程序。执行完成后,查看some文件夹,可以看到some文件夹中存在两个子文件,第一个文件的文件名的最后一个单词,代表了本次程序运行是否成功,第二个文件存放着程序运行之后的结果。此处需要注意,对于有返回值的程序,需要指定程序参数。需要确保输出的文件夹不存在,否则会报错。

2023-12-17 00:02:00 665

原创 十六、YARN和MapReduce配置

已经配置好Hadoop集群。配置内容:(2)修改mapred-site.xml配置文件yarn(1)修改yarn-env.sh文件(2)修改yarn-site.xml文件 分发配置文件(2)执行结果展示、 打开本地浏览器,输入node1:8088,即可打开本地YARN的Web-UI页面。

2023-12-15 23:25:38 585

原创 十五、YARN辅助架构

对于YARN架构来讲,除了ResourceManager集群资源总管家、NodeManager单机资源管家两个核心角色外,还可以搭配两个辅助角色使得YARN架构的运行更加稳定、更加高效。辅助角色:~代理服务器(ProxyServer)~历史服务器(JobHistoryServer)

2023-12-15 22:58:08 469

原创 十四、YARN核心架构

ResourceManager:整个集群的资源调度者,负责协调各个程序所需要的资源。NodeManager:单个服务器的资源调度者,负责调整单个服务器上的资源供给应用程序使用。 在这里,我们可以将ResourceManager理解为一个项目的总经理,将NodeManager理解为每一个模块的负责人。 在2(2)中,我们提到,如果某个程序需要申请12G的内存空间,那个它就会向ResourceManager提出申请,ResourceManager收到申请之后,会向每个NodeMana

2023-12-15 20:48:11 373

原创 十三、YARN资源分配调用

在Hadoop文件系统中,YARN作为Hadoop系统的第三大组件,其中,第二大组件MapReduce组件是基于YARN运行的,即没有YARN无法运行MapReduce程序,所以需要同时学习YARN。 资源调度,所谓资源调度,就是如下: 如何理解资源调度? 举个例子,在一个一万平米的场地上,会有许多人在这里撑帐篷。在无人管理的情况下,大家随意撑开帐篷,可能最多撑50个帐篷,但如果有人对这个场地进行分配,可能会撑80个帐篷。 这就是资源调度。

2023-12-12 23:15:00 356

原创 十二、MapReduce概述

MapReduce是“分散——>汇总”模式的分布式计算框架,可供开发人员进行相应计算~Map~Reduce其中,Map功能接口提供了“分散”的功能,由服务器分布式对数据进行处理。Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计。 用户如需使用MapReduce框架完成自定义需求的程序开发,只需要使用Java、python等编程语言,实现Map Reduce功能接口即可。 将任务分解为“分散”——>“任务”——>“汇总”。 在这里,我们一共

2023-12-08 17:40:07 376

原创 十一、了解分布式计算

顾名思义,分布式计算,即以分布式的形式完成数据的统计,得到需要的结果。 分布式数据计算,顾名思义,就是“以多取胜”,如果一个问题使用一台计算机计算需要耗时1天,那我们就是用几百个数据节点来计算。 在计算和处理数据时,我们为什么要使用分布式计算,不能用“计算器”来计算吗?其实,使用什么方式来处理数据,并不是由我们决定的,是由数据本身决定的。 将一个数据分配给许多服务器,每一个服务器分配到一部分的数据,当它们将数据处理完成,将它们各自处理的数据结果向其中一台服务器进行汇

2023-12-08 17:06:07 665

原创 十、数据读/写流程

~客户端发送请求~NameNode做判断,是否具有权限,空间是否充足~返回地址,告诉客户端一个datanode,~向指定的datanode发送数据包, 副本的复制和备份如何处理? 被写入的DataNode同时完成数据副本的复制工作,将其接收的数据分发给其它DataNode,DataNode之间完成本分~客户端告诉NameNode工作结束,NameNode开始记录元数据,即工作文档。 NameNode不接受数据,它只负责审批和记录元数据 DataNode

2023-12-08 16:29:44 342

原创 九、hdfs中Namenode元数据处理

在hdfs文件系统中,用户的每一次操作,都会对文件系统产生响应的影响,那么谁来记录这些影响呢?在hdfs文件系统中,edits文件记录了hdfs中的每一次操作,以及本次操作影响的文件其对应的block。但于此同时,会产生一个问题,那就是随着时间的推移,hdfs文件系统中的edits文件会越来越大,这是hdfs文件系统会将edits文件进行切分处理,以避免个别edits文件过大现象。那么,是那个用户来统筹和操作edits文件呢?答案是Namenode用户。

2023-11-29 22:30:10 423

原创 八、hdfs文件系统副本块数量的配置

【代码】八、hdfs文件系统副本块数量的配置。

2023-11-29 21:39:53 541

原创 二、爬虫-爬取肯德基在北京的店铺地址

针对这个案例,现在对爬虫的基础使用做总结如下:1、算法框架(1)设定传入参数~url:当前整个页面的url:当前页面的网址当前页面某个局部的url:打开检查~data:需要爬取数据的关键字,即搜索内容~param:需要获取哪些(类型)的数据,即数据类型~headers:UA伪装(2)得到get/post请求响应根据”检查“结果进行判断:get请求:response=requests.get(url=**,data=**,param=**,headers=**)

2023-11-22 23:07:53 1731

原创 一、爬虫-爬取豆瓣电影案例

你需要一个pycharm和requests第三方库,在安装完成之后即可继续浏览。

2023-11-22 22:11:12 1183 1

原创 七、HDFS文件系统的存储原理

之所以把总结放在文件开头,是为了让读者对这篇文章有更好的理解,(其实是因为我比较懒……)对于整个HDFS文件系统的存储原理,我们可以总结为一句话,那就是:分块+备份。

2023-11-21 23:57:35 178

原创 六、Big Data Tools安装

在Jetbrains的任意一款产品中,均可安装Big Data Tools这个插件。

2023-11-21 23:29:01 402

原创 五、hdfs常见权限问题

如果想使用root用户对hdfs文件系统进行操作,就需要使用Hadoop用户调整root用户的权限,将root用户放入supergroup这个组。在Hadoop文件系统中,Hadoop用户相当于Linux系统中的root用户,是最高级别用户。没有使用Hadoop用户对hdfs文件系统进行操作。

2023-11-19 10:25:43 193

原创 四、hdfs文件系统基础操作-保姆级教程

其实hdfs作为分布式存储的文件系统,其构成和Linux文件系统构成差不多一样,均是以“/”作为根目录的组织形式。在学习hdfs文件系统基础操作之后,你会发现hdfs文件系统的操作和Linux文件系统的操作十分相似,两者之间为数不多的区别就是hdfs文件系统在使用命令名时,需要在命令名前加上“-”。

2023-11-18 13:25:24 173

原创 三、hadoop配置(保姆级别教程)

在各种配置文件中,我们都是以root用户进行操作的,普通用户hadoop并没有操作权限,现在我们需要对普通用户hadoop进行授权。配置hadoop-env.sh,这个文件作用主要是Hadoop运行的环境变量。在确保所用node都给Hadoop用户进行授权之后,格式化整个文件系统。在node2、node3上构建软连接。gz上传文件,解压文件,创建软连接。配置core-site。修改hdfs-site.xml文件。修改workers文件。创建nn、dn文件夹。授权hadoop用户。

2023-11-06 20:02:54 748

原创 二、Hadoop分布式系统基础架构

分布式体系中,会存在众多服务器,会造成混乱等情况。那如何让众多服务器一起工作,高效且不出现问题呢?

2023-11-05 23:32:58 836

原创 一、Hadoop初始化配置(final+ubuntu保姆级教程)

设置-》网络-》点击-》将ipv4调整为手动-》修改地址、子网掩码、网关、dns。

2023-11-04 00:58:41 952

原创 四十三、【进阶】前缀索引

简单点说,前缀索引就是当索引字段类型较大时,有时候需要索引很长的字符串,查询时,会浪费更大的空间,此时可以只对该索引的一部分前缀建立索引,可以大大的节省空间。前缀索引一般配合选择度进行使用,选择度=(非重复元素的总数)/(该列元素的总数),选择度等于1时,代表该字段下无重复元素,选择度始终小于等于1。

2023-11-01 20:52:50 104

原创 1、Flink基础概念

(1)、数据流上的有状态计算(2)、框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。(3)、事件驱动型应用,有数据流就进行处理,无数据流就不进行处理,就像挤牙膏一样。(4)、无界数据流&&有界数据流:其中,无界数据流就相当于水龙头,流的开始就是打开水龙头,但原则上,只要不关闭水龙头,水就会一直流下去,所以没有定义流的结束。有界数据流,相当于给一个水桶中装满水,水桶底部存在一个小孔,流的开始就是水桶滴下第一滴水,流的结束就是滴下最后一滴水。

2023-11-01 09:36:56 499

原创 四十二、【进阶】覆盖索引

当使用二级索引name字段查询时,先走辅助索引,查到name字段对应的id值,按照执行规则来说,应该根据得到的id值,去聚集索引中查询数据,但因为需要输出的字段为“id和name”,而现在已经得到了“id和name”字段的信息,所以不需要回表查询,这就是所谓的覆盖索引。由于MySQL的存储结构是B+树,那么当进行主键索引查询时,只需要查询依次表,即可输出索要查询的内容。先走二级索引去查询, 拿到查询之后的结果,根据拿到的结果去聚集索引中加载数据,这就加回表查询。对于上述两种查询方式,使用*查询性能比较低。

2023-10-31 20:58:13 79

原创 四十一、【进阶】索引使用SQL提示

在使用MySQL时,当一个字段参在于多个索引中时,默认情况下,MySQL会自动选择一个索引,但我们可以指定索引吗?可以忽略某一种索引吗?答案是可以的。前提:profession字段已经存在于联合索引之中,且为联合索引的第一个字段。

2023-10-30 21:45:35 317 1

原创 四十、【进阶】索引失效情况2

在使用索引查询时,如果使用了or,会出现以下情况:(情况一)or左边是索引查询,or右边不是索引查询结果:索引查询失效(情况二)or左边不是索引查询,or右边是索引查询结果:索引查询失效(情况三)or左边是索引查询,or右边也是索引查询结果:索引拆线呢生效(举例):(解决方案):我们只需要对非索引的字段,建立索引即可。

2023-10-29 16:55:05 88

原创 三十九、【进阶】MySQL索引失效情况1

phone字段,存在一个单列索引。

2023-10-29 13:19:25 124

原创 三十八、【进阶】最左前缀法则

最左前缀法则,如果索引了多列(联合索引),要遵守最左前缀法则,最左前缀法则是致,查询从索引的最左列开始,并且不跳过索引中的列。如果跳过某一列,索引将部分失效(该索引后面的字段索引全部失效)。

2023-10-28 22:17:41 109

原创 三十七、【进阶】验证索引的效率

创建一张表,该表中有一千万条数据,名为tb_sku;

2023-10-27 23:35:39 95

原创 Linux系统下配置王爽汇编语言环境

该语句的作用主要是安装dosbox。

2023-10-26 22:11:16 736

原创 三十七、【进阶】SQL的explain

在使用explain关键字时,只需要在所执行语句前加上explain即可。

2023-10-22 11:24:56 613 2

原创 三十六、【进阶】show profiles分析

默认情况下,MySQL数据库的profiles是关闭的,我们需要手动将其打开。可以帮助清楚的展现,每一条SQL语句的执行耗时,以及时间都耗费到哪里去了。通过set语句,将profiling参数设置为1,即开启。4、使用show profiles;(2)查询某一条语句在各个阶段的耗时。2、查看是否支持profiles。3、查询profiles是否打开。(2)打开profiles。(1)查询语句的执行时间。

2023-10-22 10:47:39 131

原创 三十五、【进阶】MySQL性能查看

【代码】三十五、【进阶】MySQL性能查看。

2023-10-14 11:09:11 223

原创 三十四、【进阶】MySQL索引的操作

唯一索引与普通索引不同的是,索引列的数值必须唯一,但允许有空值null;唯一索引与主键索引不同的是,主键索引不允许出现空值null,唯一索引允许出现空值null;

2023-10-14 10:49:10 79

原创 三十三、【进阶】索引的分类

主键索引、唯一索引、常规索引、全文索引。

2023-10-09 23:35:55 203

原创 三十二、【进阶】hash索引结构

hash索引,就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在hash表中。

2023-10-08 23:01:55 576

原创 三十一、【进阶】B+树的演变过程

(1)介绍:B+树也属于B树,是B树的变种(2)特点:所有的数据都位于叶子节点上,叶子节点上的所有元素形成了一个单项链表。

2023-10-07 19:11:31 418

原创 三十、【进阶】B树的演变过程

B-Tree树最大度数为5,代表每一个节点最多存储4个key(每个节点最多存储4个数据),5个指针(可以指向5个子节点)。

2023-10-06 11:12:26 285

原创 二十九、【进阶】MySQL索引的概述和索引查询

无索引查询:在查询信息时,比如查询年龄age=45的员工,系统会遍历字段为age的列,在找到age=45的员工后,依旧会向下扫描,直到表末,因此无索引查询被称为全表扫描。索引查询:先建立树,取根节点age=36,将age<36的节点,放在36的左边,age>36的节点,放在36的右边,以此类推。在查询age=45时,只需要查询三次,所经过的节点数依次为age=36,age=48,age=45。

2023-10-05 10:26:07 69

原创 二十八、InnoDB、MyISAM、Memory三个存储引擎的区别

http://t.csdnimg.cn/MZp5mhttp://t.csdnimg.cn/MZp5m

2023-10-02 20:21:19 75

原创 二十七、[进阶]MySQL默认存储引擎InnoDB的简单介绍

引擎,就是发动机,例如火车和飞机的引擎,不同的引擎有不同的应用场景,每个引擎之间没有好坏之分。存储引擎是基于表的,而不是基于库的 # 也就意味着一个数据库下的多张表,可能具有不同的存储引擎。

2023-10-01 18:52:15 238

二、爬虫-爬取肯德基在北京的店铺地址

This project use python and requests-python ,you will get something about kendeji's address in Beijing.

2023-11-22

1、爬虫-爬取豆瓣电影案例

利用python中requests库,爬取豆瓣电影的数据。

2023-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除