- 博客(21)
- 收藏
- 关注
原创 Spark(一)
Spark 是专为大规模数据处理而设计的快速通用的计算引擎Spark 可以完成各种运算,包括 SQL 查询、文本处理、机器学习等Spark由Scala语言开发,能够和Scala紧密结合。
2023-10-24 21:07:50 42
原创 Scala(五)
/ 像接口:可以被with多次,即一个类可以同时实现多个trait// 又像抽象类:可以定义具体的属性及方法,以及抽象的方法trait K {val _gender1: String = "男"!trait KK {val _gender2: String = "男"!println(zs.isEqualGender1("男"))println(zs.isEqualGender1("女"))println(zs.isEqualGender2("女"))
2023-10-23 09:08:44 36 1
原创 Scala(三)
*** Tuple元组:有序,元素可以重复* 元组就是不可变的,没有可变元组* 最大长度为22* 可以通过_1 _2 _3 _4......提取对应位置的元素* 在Scala中对集合进行操作的时候:除了sortWith方法之外的其他方法都只需要用一个参数接收*/
2023-10-20 20:33:43 33 1
原创 Scala(二)
BeanProperty var name: String = _name //使用@BeanProperty的变量名必须以字母开头var _clazz: String = _ //_表示之后再对clazz进行初始化def this(id: Int, name: String, age: Int, clazz: String) = { //构造方法不可以有返回值类型println("进入了构造方法")// }//// }${_id。
2023-10-19 19:27:22 29
原创 Scala(一)
Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机)并兼容现有的Java程序。
2023-10-18 14:06:23 52 1
原创 Java(一)
计算机(Computer)全称:电子计算机,俗称电脑。是一种能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备。由硬件和软件所组成,没有安装任何软件的计算机称为裸机。常见的形式有台式计算机、笔记本计算机、大型计算机等。PrtSc(PrintScreen)屏幕截图Ctrl+A 全选Ctrl+C 复制Ctrl+V 粘贴Ctrl+X 剪切Ctrl+Z 撤销Ctrl+S 保存。
2023-10-12 21:14:20 23
原创 Hbase(一)
HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的)包含访问HBase的接口并维护cache来加快对HBase的访问。
2023-10-11 18:55:33 89 1
原创 Hive(五)
import org/*1. 继承:org.apache.hadoop.hive.ql.exec.UDF//传进去一个字符串类型的值,在值的后面拼接一个$符号 public String evaluate(String obj) {} //需求:1000以下的 +500;2000以上 +1500 public int evaluate(int sal) {} else {} } }/*1. 继承:org.apache.hadoop.hive.ql.exec.UDF。
2023-10-10 21:23:13 26 1
原创 Hive(三)
Hive分区:是指按照数据表的某列或者某些列分为多个区,区从形式上可以理解为⽂件夹,⽐如 我们要收集某个⼤型⽹站的⽇志数据,⼀个⽹站每天的⽇志数据存在同⼀张表上,由于每天会⽣ 成⼤量的⽇志,导致数据表的内容巨⼤,在查询时进⾏全表扫描耗费的资源⾮常多。那其实这个 情况下,我们可以按照⽇期对数据表进⾏分区,不同⽇期的数据存放在不同的分区,在查询时只 要指定分区字段的值就可以直接从该分区查找。分桶对数据的处理⽐分区更加的细化,分区针对的是数据的存储路径,分桶针对的是数据⽂件。sort by:分区内有序。
2023-10-08 19:04:31 66 1
原创 Hadoop(六)
提前在map进⾏combine,减少传输的数据量 在Mapper加上combiner相当于提前进⾏reduce,即把⼀个Mapper中的相同key进⾏了聚合,减 少shuffle过程中传输的数据量,以及Reducer端的计算量。按照框架:hive /spark/ "ink 每个框架的任务放⼊指定的队列(企业⽤的不是特别多) 按照业务模块:登录注册、购物⻋、下单、业务部⻔1、业务部⻔2。容量调度器:⽀持多队列,保证先进⼊的任务优先执⾏。公平调度器:⽀持多队列,保证每个任务公平享有队列资源。
2023-10-07 20:56:02 34 1
原创 Hadoop(四)
ZooKeeper是一个开源的分布式协调服务,用于管理和维护分布式系统中的配置信息、命名服务、状态同步等,提供可靠性和高性能的基础设施支持。
2023-10-05 16:42:28 105
原创 Hadoop(三)
脑裂是Hadoop2.X版本后出现的全新问题,实际运行过程中很有可能出现两个namenode同时服务于整个集群的情况,这种情况称之为脑裂Hadoop的邦联机制是指将多个独立的Hadoop集群连接在一起,形成一个逻辑上统一的大规模集群,以共享和处理跨集群的数据和计算任务。
2023-10-03 08:15:00 30
原创 Hadoop(二)
刚开始的时候namenode中会有两个文件一个是edits_inprogress_1,一个是fsimage_0,刚开始的时候edits_inprogress_1经过100次操作变成edits_inprogress_1-100,之后将edits_inprogress_1-100和fsimage_0同步一份给到secondarynamenode上去进行合并,生成fsimage_100同步回来。传输的开销:由于小文件数量众多,读取和传输大量小文件时,会增加网络传输的开销和I/O操作的次数,影响整体性能。
2023-10-02 20:50:11 472 1
原创 Hadoop(一)
Apache基金会是一个非营利性的全球开源软件组织,旨在支持和培育各种开源项目的发展。Hadoop是一个适合海量数据的分布式存储和分布式计算的平台Hadoop Common 提供了用于支持其他 Hadoop 组件的公共工具和库HDFS 是分布式文件系统,用于存储和管理大规模数据YARN 是资源管理器,负责集群资源的管理和任务的调度MapReduce 是一种分布式计算框架,用于处理大规模数据集的并行计算文件系统是一种用于组织和管理计算机存储设备上文件和目录的方法或数据结构。
2023-10-01 17:00:48 435
原创 Hive(二)
在看完下面的例子后进行解释,现在干巴巴的解释也不太好理解。 首先,分区和分桶是两个不同的概念,很多资料上说需要先分区在分桶,其实不然,分区是对数据进行划分,而分桶是对文件进行划分。分区提供了一个隔离数据和优化查询的便利方式,不过并非所有的数据都可形成合理的分区,尤其是需要确定合适大小的分区划分方式。同时要注意查询的时候最好按照分区进行查询,如果按照性别进行分区,查询按照年龄来查,就没有起到分区作用,依然是全表扫描。要注意的是,文件所存放的分区在哪个分区,查询结果就是哪个分区的,与文件的名字无关。
2023-09-08 21:57:11 256 1
原创 Hive(一)
Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。1、hive是数据仓库建模的工具之一。2、可以向hive传入一条交互式的sql,在海量数据中查询分析得到结果的这样一个平台TestFile(系统默认)RCFileORCFileAVROParquet。
2023-09-06 21:47:22 687 1
原创 Git(一)
创建文件夹 git init1、git有3个区域工作区():项目的根目录,不包括.git在内的其他文件暂存区(stage area):是一个看不见的区域,git add命令就是将文件添加到该区域,git add .表示添加所有,git status命令可以查看当前暂存区的文件,文件标识改了,(没有加号重启一下)本地仓库(repository):指在工作目录下创建的一个.git目录,这是一个隐藏目录。git commit -m "日志名"可以将暂存区的代码提交到本地仓库。
2023-09-05 21:26:01 113 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人