大数据课程学习
文章平均质量分 86
冰冷灬泡面
这个作者很懒,什么都没留下…
展开
-
大数据课程——Spark SQL
大数据课程——Spark SQL 练习原创 2022-06-14 19:47:21 · 1012 阅读 · 1 评论 -
大数据课程——Spark RDD 编程
大数据课程——Spark RDD编程原创 2022-06-06 16:50:12 · 746 阅读 · 0 评论 -
大数据课程——Storm综合应用
大数据课程——Storm综合应用实验内容以及要求假设在某一搜索应用中,需要实时统计搜索次数最多的热门关键词,并按照实时统计搜索次数输出最热门的20大热门关键词及被搜索次数。用户搜索的日志通过Flume采集,并写入Kafka,Storm从Kafka中实时读取数据,并完成实时统计工作,并进行输出。提示:(1)搜索日志可以采用实验5的数据(搜狗搜索数据),一行代表一次用户搜索;(2)Flume Agent的Source可以配置为syslogudp类型(端口5640),监控搜索日志;(3)输出形式自原创 2022-05-11 21:01:19 · 1197 阅读 · 0 评论 -
大数据课程——Flume综合运用
大数据课程——Flume综合运用原创 2022-05-09 15:43:09 · 811 阅读 · 0 评论 -
大数据课程——Flume日志收集
大数据课程——Flume日志收集实验内容以及要求如下图所示,节点1、节点2产生日志,节点1和节点2的日志最终流向节点3,并最终写入HDFS文件。节点1的Agent的Source类型为syslogtcp,采集日志信息通过用户编写的Client程序通过socket(假设端口号5640)发送到flume agent;节点2的日志信息来自于监听特别的日志文件夹(/home/hadoop/log)产生的事件。请部署Flume,并完成相应的配置,实现如下日志收集方案。在后面的叙述当中,Centos01作为上原创 2022-04-29 11:10:55 · 1288 阅读 · 0 评论 -
大数据课程——Kafka编程应用
大数据课程——Kafka编程应用实验内容以及要求如下图所示,在某一应用场景中,有两个生产者生产消息和一个消费者消费消息,他们利用Kafka集群进行消息传输。其中生产者需要记录消息来源(即发送消息的主机名或IP)及消息发送时间(格式为年月日 时分秒),生产者1同步发送消息、生产者2采用异步发送消息,都需要显示消息发送成功还是失败。用户通过输入消息内容通过生产者(生产者1或生产者2)将消息发送到Kafka,消费者根据消息内容能区分消息来源。请分别编程实现相应的生产者和消费者,并完成部署实现上述应用场景的模原创 2021-07-06 16:58:49 · 712 阅读 · 0 评论 -
大数据课程——MapReduce编程综合应用(2)
大数据课程——MapReduce编程综合应用(2)实验内容以及要求现有一份汽车销售记录,销售记录包括时间、地点、邮政编码、车辆类型等信息,每条记录信息包含39项数据项。请利用MapReduce框架,编写程序实现如下功能:(1)统计不同车型销售的年龄段分布情况,并分别按照车型和年龄段进行汇总(不考虑排序)。注意:年龄段每10岁为1个年龄段(010、1120、21~30…)输出格式参考如下:车型1,年龄段1,300车型1,年龄段1,300…车型1,年龄段2,300…车型2,年龄段1,30原创 2021-06-28 16:08:28 · 1461 阅读 · 2 评论 -
大数据课程——MapReduce编程综合应用(1)
大数据课程——MapReduce编程综合应用(1)实验内容以及要求现有大约500万条搜索引擎产生的记录,数据格式如下:每一行包含6个字段:字段1代表数据产生的时间;字段2代表用户,即UID;字段3代表用户搜索关键词;字段4代表URL超链接在返回结果中的排名;字段5代表用户单击超链接的顺序号;字段6代表用户单击的URL超链接的地址。请利用MapReduce框架,编写程序实现如下功能:(1)统计用户数量(2)统计搜索次数在20次及以上的用户UID及搜索次数(3)你自己想到的其他功能原创 2021-06-28 15:05:59 · 1259 阅读 · 1 评论 -
大数据课程——MapReduce编程基础
大数据课程——MapReduce编程基础实验内容以及要求在文档规模较小的时候,使用传统编程方式也能统计出文本中出现的单词数量,但是当文档规模巨大的时候(比如数据大小达到GB、PB级别的时候),就必须使用MapReduce来进行统计了。请使用MapReduce编程框架, 编写程序WordCount,统计文本中,每个单词出现的次数,并给予详细的步骤以及实验测试结果。自己说两句该实验主要是学习MapReduce的相关概念,重点是要理解Map、Reduce这两个阶段做了什么事情,并且在整个MapRed原创 2021-06-28 14:43:46 · 397 阅读 · 0 评论 -
大数据课程——课后练习3
大数据课程——课后练习31.请简述Spark的主要组件及其主要功能。Spark Core:该组件是Spark的核心模块,主要包含两个功能:一是负责任务调度、内存管理、错误恢复与存储系统交互等;二是其包含了对弹性分布式数据集的API定义。它提供了创建和操作这些集合的多个API。Spark SQL:该组件是一个用于结构化数据处理的Spark工具包,提供了面向结构化数据的SQL查询接口,使用户可以通过编写SQL或基于Apache Hive的HiveQL来方便地处理数据。也可以查询Hive中的数据,相原创 2021-06-23 16:00:09 · 773 阅读 · 0 评论 -
大数据课程——课后练习2
1.简述Kafka集群架构一个典型的Kafka集群包含若干生产者,若干Broker,若干消费者以及一个Zookeeper集群。Zookeeper用于管理和协调Broker。若集群中有Broker失效、新增、故障,Zookeeper会通知其他生产者和消费者进行Broker协调工作。生产者会用Push模式将消息发送到Broker,消费者用Pull模式从Broker中订阅并消费消息。2.请简述Kafka主题与分区的概念Kafka通过主题对消息进行分类,一个主题可以分为多个分区,每个分区可以存储于不同的B原创 2021-06-23 15:51:02 · 655 阅读 · 0 评论 -
大数据课程——课后练习1
大数据课程——课后练习11.请简述HDFS集群的总体架构以及NameNode、DataNode和SecondaryNameNode的作用。NameNode是HDFS中的存储元数据的地方,它将所有文件和文件夹的元数据保存在一个文件系统的目录树中,任何元数据信息的改变,NameNode都会记录。NameNode还负责维护HDFS中文件与数据块的对应关系。NameNode还存储数据块到DataNode的映射信息。NameNode还会周期性地接收集群中DataNode的“心跳”和“块报告”。通过“心跳”与原创 2021-06-23 15:36:22 · 599 阅读 · 0 评论 -
大数据课程复习资料整理
以下所有内容只是自己课程考试资料的复习整理所有图片均出自课程PPT和张伟洋所著的《Hadoop大数据技术开发实践》,不是自己画的!!!HadoopHadoop整体架构对比1.x Hadoop以HDFS和MapReduce为核心。1.x的MapReduce除了负责数据的计算以外,还负责集群作业的调度和资源管理,HDFS负责数据存储2.x Hadoop以HDFS和YARN为核心。HDFS负责数据存储,YARN负责集群资源管理和统一调度。MapReduce只负责进行数据计算。YARN具有通用性,可.原创 2021-06-23 09:53:19 · 741 阅读 · 0 评论 -
Spark Streaming 作业练习
Spark Streaming 作业练习实验内容及要求在本地或HDFS新建一个测试目录,编写一个简单程序,每随机间隔若干秒(5s以内)在该目录下新建一个文件,并写入若干行内容(每一行包含若干单词,单词之间以空格分隔)。现利用Spark Streaming分别完成如下单词统计:(1)实时统计每10s新出现的单词数量(每10s统计1次);(2)实时统计最近1分钟内每个单词的出现次数(每10s统计1次);(3)实时统计每个单词的累积出现次数,并将结果保存到本地文件(每10s统计1次)为了顺利进行实验原创 2021-06-11 20:23:40 · 2560 阅读 · 5 评论