自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 1013总结

面试总结

2022-10-13 10:48:01 168 1

原创 Spark 03

作业:1.map与mapPartitions的区别(1)map是对rdd中的每一个元素进行操作;mapPartitions则是对rdd中的每个分区的迭代器进行操作(2)如果是普通的map,比如一个partition中有1万条数据。ok,那么你的function要执行和计算1万次。使用MapPartitions操作之后,一个task仅仅会执行一次function,function一次接收所有的partition数据。只要执行一次就可以了,性能比较高。SparkSql或DataFrame默认会对程序

2022-04-15 13:20:14 1724

原创 Hive 4

1.hive的四大by1.1order by(全局排序)只有一个reduce,这里无论你设置多少个reduce,都是一个优点:全局排序缺点:当数据量大的时候,耗时长,效率低,适用于较小数据量的场景1.2sort by(分区内排序)对每一个reduce内部的数据进行排序,全局结果来说不是排序的只能保证每一个reduce输出的文件中的数据是按照规定字段排序的适用于数据量大,但是对排序要求不严格的场景,可以大幅提高执行效率1.3distribute by(分区排序)

2022-04-09 17:13:23 1633

原创 作业0405

1.lateral view的用法这个函数相当于拆开行变成列。可以理解为行转列。select id,order_labelfrom table_bxlateral view explode(split(work_order_label, ',')) order_label as order_label2.json_tuple和get_json_object的区别,尤其是性能方面get_json_object 函数的作用:用来解析json字符串的一个字段;json_tu.

2022-04-05 18:53:39 150

原创 作业0403

1.STORED AS的含义(1)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到 hdfs 上不进行处理;(2)sequencefile二进制文件,以<key,value>的形式序列化到文件中;存储方式:行存储;可分割 压缩;一般选择block压缩;优势是文件和Hadoopapi中的mapfile是相互兼容的(3)refile存储方式:数据按行分块 每块按照列存储;压缩快 快速列存取;读记录尽量涉及到的block最少.

2022-04-04 18:37:41 1093

原创 Hive 1

简介hive是使用SQL完成大数据统计分析的工具。hive是facebook公司开源的工具,用来解决海量的结构化日志的统计问题。hive是构建在hadoop之上的数据仓库。HDFS: hive的 数据是放在HDFS (distributed storge), 元数据(metadata)存在对应的底层关系型数据库,一般是MySQLMR(计算引擎): hive的作 业(SQL)是通过hive的框架翻译成MR作业Yarn: hive的 作业是提交到Yarn.上去运行的...

2022-04-03 16:59:43 2836

原创 JVM五大内存区

根据 << Java虚拟机规范 >>中的规定,运行时数据区通常包括这几个部分:程序计数器(Program Counter Register)、虚拟机栈(VM Stack)、本地方法栈(Native Method Stack)、方法区(Method Area)、堆(Heap)。方法区和堆是所有线程共享的,而栈和计数器是线程私有的。栈处理程序运行的问题,堆处理数据的存储问题。所以才有堆栈分离。1.方法区又被称为元空间,主要用来存储已被虚拟机加载的类的信息、常量、静态变量和

2022-04-03 13:37:02 909

原创 MapperReducer

用java代码实现wordcount新建Java类MRMapperpackage MR_wc;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class

2022-03-30 19:26:03 1763

原创 MapReduce 1

图解MR(例子wordcount)(1)input读文件(2)split 分片blocksize 分区大小 128M一个300MB的文件,blocksize默认是128M,那么分为3个块一个128.01MB的文件,128M有buffer(缓冲区),10%,只需要1个块3.mapword =>(word,1) key-value键值对4.shuffle洗牌默认按照key的hash值进行分发相同的key肯定要分发到同一个reduce任务上去,做最

2022-03-27 16:54:34 1479

原创 Yarn

主要模块1.ResourceManager(RM)yarn的资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配。包含调度器和应用管理器2.调度器(ResourceScheduler)根据各个应用程序的资源需求,进行分配。3.应用管理器(Applications Manager)负责监控或跟踪AM的执行状态4.NodeManager(NM)是ResourceManager每台机器上的代理,负责容器的管理,并监控他们的资源使用情况(CPU,内存,磁盘,网

2022-03-26 17:56:24 3649

原创 HDFS 2

1.HDFS读写流程HDFS读流程HDFS client 调用FileSystem.open(filePath),与NN进行【RPC】通宵,返回该文件的block列表返回 FSDataInputStream 对象HDFS client 调用FSDataInputStream.read方法与第一个块最近的DN进行读取,读取完成后检查是否读取到想要的数据?如果读取到,关闭与DN通信如果未读取到,就从第二个节点去读取,以此类推当block列表全部读取完成HDFS c

2022-03-23 18:09:40 331

原创 Hadoop 3

作业题:1.了解“机架”机架是一种中间件。 它位于您的Web应用程序和Web服务器之间。 它处理所有服务器特定的API调用,将HTTP请求和所有环境参数传递给哈希,然后将应用程序的响应返回给服务器。 换句话说,您的应用程序不需要知道如何与HTTP服务器通信,而是需要知道如何与Rack通信。这具有许多优点。 首先,与Rack交谈很容易(如下所示)。 其次,由于您只需要知道如何与Rack对话,而Rack知道如何与许多不同的HTTP服务器对话,因此您的应用程序可以在这些HTTP服务器中的任何一个上运行

2022-03-20 17:21:45 80

原创 Hadoop 2

yarn配置1.在 app/hadoop/etc/hadoop/mapred-site.xml 编辑加入<property> <name>mapreduce.framework.name</name> <value>yarn</value></property>2.在 app/hadoop/etc/hadoop/yarn-site.xml编辑加入 <property&gt

2022-03-19 19:17:16 2370

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除