云计算
文章平均质量分 90
stearm210
哈人,润了
展开
-
云计算技术 综合实验
由于在加载数据的过程中,不需要从用户数据格式到Hive定义的数据格式的转换,因此,Hive在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的HDFS目录中。由于raw_user和文件small_user中的第一行是字段的名字,在将文件中的数据传入hive的时候,是不需要这些字段的名字的,这个时候就需要进行删除操作。将Hive中的数据导入到MySQL数据库的时候,建议使用sqoop软件,使用书上的端口号进行导入的时候会报错,而且数据经常丢失。之后需要确定HDFS中有这个文件。原创 2022-12-21 23:17:17 · 1400 阅读 · 0 评论 -
云计算技术 实验九 Spark的安装和基础编程
得到这些单词的集合之后,开始使用键值对的方式对出现的单词进行计数,每出现一次就使用键值对计算一次。之后遍历文件中的内容,对每个单词进行切分归类,后面使用flatMap命令为的是得到一个关于单词的集合。在进行打包的时候需要进行等待软件包下载好,否则再次进行打包的时候会产生数据的流失。为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。进行打包的时候需要对路径进行判断,防止路径错误导致的数据文件的丢失。首先加载本地的文件,这些本地的文件是自带的spark测试文件。原创 2022-12-21 23:10:02 · 1476 阅读 · 1 评论 -
云计算技术 实验八 数据仓库Hive的安装和使用
但是使用java编写的时候,将会调用各种包,之前还需要进行各种包的导入以及代码的编写,远远没有wordcount便利简洁。1.在使用hive的时候,可以比mapreduce使用更少的代码量,在mapreduce中需要实现产生jar包,但是在使用hive的时候不需要使用jar包。进行删除数据库的时候,需要匹配对应的路径才可以。一组无序的键值对,键的类型必须是原子的,值可以是任何数据类型,同一个映射的健和值的类型必须相同。实验的时候,需要事先安装好mysql,下载的时候如果速度太慢,可以更换对应的下载网站。原创 2022-12-21 23:03:43 · 1452 阅读 · 0 评论 -
云计算技术 实验七 MapReduce编程基础
master通知分配了Reduce作业的worker它负责的分区在什么位置(肯定不止一个地方,每个Map作业产生的中间键值对都可能映射到所有R个不同分区),当Reduce worker把所有它负责的中间键值对都读过来后,先对它们进行排序,使得相同键的键值对聚集在一起。reduce worker遍历排序后的中间键值对,对于每个唯一的键,都将键与关联的值传递给reduce函数,reduce函数产生的输出会添加到这个分区的输出文件中。注意,这里的名字不能使用单个字符,不然会报错!,所以后面改成了多个字符。原创 2022-12-21 22:58:05 · 2004 阅读 · 0 评论 -
云计算技术 实验六 NoSQL数据库的安装和使用
2.redis是NOSQL,即非关系型数据库,也是缓存数据库,即将数据存储在缓存中,缓存的读取速度快,能够大大的提高运行效率,但是保存时间有限。1.mysql是关系型数据库,主要用于存放持久化数据,将数据存储在硬盘中,读取速度较慢。中数据的基本单元,类似关系数据库的行,多个键值对有序地放置在一起便是文档,语法有点类似。完成数据库的插入,删除,以及查询。MongoDB的成熟度比较低,,但是Mysql数据库的成熟度比较高。insert会插入数据。面向对象的查询语言,它是一个面向集合的,模式自由的文档型数据库。原创 2022-12-21 22:51:04 · 1696 阅读 · 0 评论 -
云计算技术 实验五 Hbase的安装和基础编程
5.Hbase的可靠性更高,由于底层使用HDFS,所以HDFS具有备份的机制,当Spark集群发生严重的问题的时候,Hbase中的机制可以保证数据不会发生丢失或者损毁。2.在使用eclipse的时候,导入的jar包用于实现java项目的编写,对应的有向Hbase中输入数据的jar包,连接Hbase数据库的包,使用shell命令的包等。2.Hbase的版本十分的多,它表中的每一个列的数据都有多个版本,一般来说,每一个列对应着一条数据,可能有的数据会对应着多个版本。每个版本对应的查看相对方便。原创 2022-12-21 22:46:57 · 1681 阅读 · 0 评论 -
云计算技术 实验四 HDFS操作方法和基础编程
1.运行hdfs的时候,需要注意先启动hadoop系统,如果不清楚对应的hdfs的操作,可以使用./bin/hdfs dfs,命令查看。(三)完成eclipse的安装,在eclipse中创建项目,配置所需要的jar包,编写一个可以和HDFS相交互的Java应用程序。2.在ecplise导入jar包的时候,需要注意导入包的数量,注意不要漏导入包。(一)参考实验指南的内容,完成相关的HDFS的基本shell命令。etc目录:hadoop的配置文件目录,存放hadoop的配置文件。原创 2022-12-21 22:41:03 · 1188 阅读 · 0 评论 -
云计算技术 实验三 安装Hadoop系统并熟悉hadoop命令
4学时虚拟机安装完毕:已经改变虚拟机网络连接方式为桥接网络,使用手机热点连接计算机环境为Linux系统。原创 2022-11-24 20:55:05 · 876 阅读 · 0 评论 -
云计算技术 实验二 安装 k8s 系统并熟悉 k8s 命令
安装 k8s 系统并熟悉 k8s 命令原创 2022-11-13 23:41:45 · 414 阅读 · 0 评论 -
云计算技术 实验一 安装docker系统并熟悉docker命令
环境为windows11,虚拟机为16.04。原创 2022-11-04 12:43:31 · 1311 阅读 · 0 评论