究极章鱼-CSDN博客

原创 Spark(一)

Spark 是专为大规模数据处理而设计的快速通用的计算引擎Spark 可以完成各种运算，包括 SQL 查询、文本处理、机器学习等Spark由Scala语言开发，能够和Scala紧密结合。

2023-10-24 21:07:50 42

/ 像接口：可以被with多次，即一个类可以同时实现多个trait// 又像抽象类：可以定义具体的属性及方法，以及抽象的方法trait K {val _gender1: String = "男"!trait KK {val _gender2: String = "男"!println(zs.isEqualGender1("男"))println(zs.isEqualGender1("女"))println(zs.isEqualGender2("女"))

2023-10-23 09:08:44 36 1

原创 Scala(四)

【代码】Scala(四)

2023-10-22 11:08:22 38 1

原创 Scala(三)

*** Tuple元组：有序，元素可以重复* 元组就是不可变的，没有可变元组* 最大长度为22* 可以通过_1 _2 _3 _4......提取对应位置的元素* 在Scala中对集合进行操作的时候：除了sortWith方法之外的其他方法都只需要用一个参数接收*/

2023-10-20 20:33:43 33 1

原创 Scala(二)

BeanProperty var name: String = _name //使用@BeanProperty的变量名必须以字母开头var _clazz: String = _ //_表示之后再对clazz进行初始化def this(id: Int, name: String, age: Int, clazz: String) = { //构造方法不可以有返回值类型println("进入了构造方法")// }//// }${_id。

2023-10-19 19:27:22 29

原创 Scala(一)

Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机）并兼容现有的Java程序。

2023-10-18 14:06:23 52 1

原创 Java(一)

计算机（Computer）全称：电子计算机，俗称电脑。是一种能够按照程序运行，自动、高速处理海量数据的现代化智能电子设备。由硬件和软件所组成，没有安装任何软件的计算机称为裸机。常见的形式有台式计算机、笔记本计算机、大型计算机等。PrtSc(PrintScreen)屏幕截图Ctrl+A 全选Ctrl+C 复制Ctrl+V 粘贴Ctrl+X 剪切Ctrl+Z 撤销Ctrl+S 保存。

2023-10-12 21:14:20 23

原创 Hbase(一)

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层是字节数组做存储的）包含访问HBase的接口并维护cache来加快对HBase的访问。

2023-10-11 18:55:33 89 1

原创 Hive(五)

import org/*1. 继承：org.apache.hadoop.hive.ql.exec.UDF//传进去一个字符串类型的值，在值的后面拼接一个$符号 public String evaluate(String obj) {} //需求：1000以下的 +500；2000以上 +1500 public int evaluate(int sal) {} else {} } }/*1. 继承：org.apache.hadoop.hive.ql.exec.UDF。

2023-10-10 21:23:13 26 1

原创 Hive(四)

请说一说有哪些排序开窗函数？RANK() ，DENSE_RANK() ，ROW_NUMBER()有什么区别？

2023-10-09 19:10:29 25 1

原创 Hive(三)

Hive分区：是指按照数据表的某列或者某些列分为多个区，区从形式上可以理解为⽂件夹，⽐如我们要收集某个⼤型⽹站的⽇志数据，⼀个⽹站每天的⽇志数据存在同⼀张表上，由于每天会⽣成⼤量的⽇志，导致数据表的内容巨⼤，在查询时进⾏全表扫描耗费的资源⾮常多。那其实这个情况下，我们可以按照⽇期对数据表进⾏分区，不同⽇期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找。分桶对数据的处理⽐分区更加的细化，分区针对的是数据的存储路径，分桶针对的是数据⽂件。sort by：分区内有序。

2023-10-08 19:04:31 66 1

原创 Hadoop(六)

提前在map进⾏combine，减少传输的数据量在Mapper加上combiner相当于提前进⾏reduce，即把⼀个Mapper中的相同key进⾏了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。按照框架：hive /spark/ "ink 每个框架的任务放⼊指定的队列（企业⽤的不是特别多）按照业务模块：登录注册、购物⻋、下单、业务部⻔1、业务部⻔2。容量调度器：⽀持多队列，保证先进⼊的任务优先执⾏。公平调度器：⽀持多队列，保证每个任务公平享有队列资源。

2023-10-07 20:56:02 34 1

原创 Hadoop(五)

CRLF（windows默认格式\r\n）和LF（linux默认格式\r）下的偏移量有所不同。

2023-10-06 20:42:56 87 1

原创 Hadoop(四)

ZooKeeper是一个开源的分布式协调服务，用于管理和维护分布式系统中的配置信息、命名服务、状态同步等，提供可靠性和高性能的基础设施支持。

2023-10-05 16:42:28 105

原创 Hadoop(三)

脑裂是Hadoop2.X版本后出现的全新问题，实际运行过程中很有可能出现两个namenode同时服务于整个集群的情况，这种情况称之为脑裂Hadoop的邦联机制是指将多个独立的Hadoop集群连接在一起，形成一个逻辑上统一的大规模集群，以共享和处理跨集群的数据和计算任务。

2023-10-03 08:15:00 30

原创 Hadoop(二)

刚开始的时候namenode中会有两个文件一个是edits_inprogress_1，一个是fsimage_0，刚开始的时候edits_inprogress_1经过100次操作变成edits_inprogress_1-100，之后将edits_inprogress_1-100和fsimage_0同步一份给到secondarynamenode上去进行合并，生成fsimage_100同步回来。传输的开销：由于小文件数量众多，读取和传输大量小文件时，会增加网络传输的开销和I/O操作的次数，影响整体性能。

2023-10-02 20:50:11 472 1

qq_50379483的博客