AL KEEP-CSDN博客

作业：1.map与mapPartitions的区别（1）map是对rdd中的每一个元素进行操作；mapPartitions则是对rdd中的每个分区的迭代器进行操作（2）如果是普通的map，比如一个partition中有1万条数据。ok，那么你的function要执行和计算1万次。使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有的partition数据。只要执行一次就可以了，性能比较高。SparkSql或DataFrame默认会对程序

2022-04-15 13:20:14 1724

原创 Hive 4

1.hive的四大by1.1order by（全局排序）只有一个reduce，这里无论你设置多少个reduce，都是一个优点：全局排序缺点：当数据量大的时候，耗时长，效率低，适用于较小数据量的场景1.2sort by（分区内排序）对每一个reduce内部的数据进行排序，全局结果来说不是排序的只能保证每一个reduce输出的文件中的数据是按照规定字段排序的适用于数据量大，但是对排序要求不严格的场景，可以大幅提高执行效率1.3distribute by（分区排序）

2022-04-09 17:13:23 1633

原创作业0405

1.lateral view的用法这个函数相当于拆开行变成列。可以理解为行转列。select id,order_labelfrom table_bxlateral view explode(split(work_order_label, ',')) order_label as order_label2.json_tuple和get_json_object的区别，尤其是性能方面get_json_object 函数的作用：用来解析json字符串的一个字段；json_tu.

2022-04-05 18:53:39 150

原创作业0403

1.STORED AS的含义（1）其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到 hdfs 上不进行处理；（2）sequencefile二进制文件,以<key,value>的形式序列化到文件中；存储方式：行存储；可分割压缩；一般选择block压缩；优势是文件和Hadoopapi中的mapfile是相互兼容的（3）refile存储方式：数据按行分块每块按照列存储；压缩快快速列存取；读记录尽量涉及到的block最少.

2022-04-04 18:37:41 1093

原创 Hive 1

简介hive是使用SQL完成大数据统计分析的工具。hive是facebook公司开源的工具，用来解决海量的结构化日志的统计问题。hive是构建在hadoop之上的数据仓库。HDFS: hive的数据是放在HDFS (distributed storge)，元数据(metadata)存在对应的底层关系型数据库，一般是MySQLMR(计算引擎): hive的作业(SQL)是通过hive的框架翻译成MR作业Yarn: hive的作业是提交到Yarn.上去运行的...

2022-04-03 16:59:43 2836

原创 JVM五大内存区

根据 << Java虚拟机规范 >>中的规定,运行时数据区通常包括这几个部分:程序计数器(Program Counter Register)、虚拟机栈(VM Stack)、本地方法栈(Native Method Stack)、方法区(Method Area)、堆(Heap)。方法区和堆是所有线程共享的，而栈和计数器是线程私有的。栈处理程序运行的问题，堆处理数据的存储问题。所以才有堆栈分离。1.方法区又被称为元空间，主要用来存储已被虚拟机加载的类的信息、常量、静态变量和

2022-04-03 13:37:02 909

原创 MapperReducer

用java代码实现wordcount新建Java类MRMapperpackage MR_wc;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class

2022-03-30 19:26:03 1763

原创 MapReduce 1

图解MR（例子wordcount）（1）input读文件（2）split 分片blocksize 分区大小 128M一个300MB的文件，blocksize默认是128M，那么分为3个块一个128.01MB的文件，128M有buffer（缓冲区），10%，只需要1个块3.mapword =>（word，1） key-value键值对4.shuffle洗牌默认按照key的hash值进行分发相同的key肯定要分发到同一个reduce任务上去，做最

2022-03-27 16:54:34 1479

原创 Yarn

主要模块1.ResourceManager（RM）yarn的资源控制框架的中心模块，负责集群中所有的资源的统一管理和分配。包含调度器和应用管理器2.调度器（ResourceScheduler）根据各个应用程序的资源需求，进行分配。3.应用管理器（Applications Manager）负责监控或跟踪AM的执行状态4.NodeManager（NM）是ResourceManager每台机器上的代理，负责容器的管理，并监控他们的资源使用情况（CPU，内存，磁盘，网

2022-03-26 17:56:24 3649

原创 HDFS 2

1.HDFS读写流程HDFS读流程HDFS client 调用FileSystem.open(filePath),与NN进行【RPC】通宵，返回该文件的block列表返回 FSDataInputStream 对象HDFS client 调用FSDataInputStream.read方法与第一个块最近的DN进行读取，读取完成后检查是否读取到想要的数据？如果读取到，关闭与DN通信如果未读取到，就从第二个节点去读取，以此类推当block列表全部读取完成HDFS c

2022-03-23 18:09:40 331

原创 Hadoop 3

作业题：1.了解“机架”机架是一种中间件。它位于您的Web应用程序和Web服务器之间。它处理所有服务器特定的API调用，将HTTP请求和所有环境参数传递给哈希，然后将应用程序的响应返回给服务器。换句话说，您的应用程序不需要知道如何与HTTP服务器通信，而是需要知道如何与Rack通信。这具有许多优点。首先，与Rack交谈很容易(如下所示)。其次，由于您只需要知道如何与Rack对话，而Rack知道如何与许多不同的HTTP服务器对话，因此您的应用程序可以在这些HTTP服务器中的任何一个上运行

2022-03-20 17:21:45 80

原创 Hadoop 2

yarn配置1.在 app/hadoop/etc/hadoop/mapred-site.xml 编辑加入<property> <name>mapreduce.framework.name</name> <value>yarn</value></property>2.在 app/hadoop/etc/hadoop/yarn-site.xml编辑加入 <property&gt

2022-03-19 19:17:16 2370

MINAMI373的博客

原创 1013总结

原创 Spark 03