二月Echo-CSDN博客

原创 scala编写Akka并发控制线程数量简单示例

akka设计模式首先就是设计一个管理者，来管理控制线程的并发taskTotal是并发执行的总任务数taskExecute是已经执行过的任务数根据传入的并发数量来控制我们一开始要创建多少个工作通过.actorOf来创建一个worker的ActorRef，注意名字不能重复，并且将自己的ActorRef传过去，用来接收回馈的信息每创建完一个ActorRef，我们从任务队列中获取一个任务，让它把任务消息发给workerActor去执行任务worker执行完之后反馈执行情况，将任务执行数量和总任务数对

2022-01-11 14:15:52 533

原创 flink入门总结

spark Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎支持迭代式计算，图形计算，Spark框架计算比MR快的原因是:中间结果不落盘。注意Spark的Shuffle也是落盘的。 Spark内置模块 Spark Core：Spark的基本功能，含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。 S...

2021-11-16 16:48:44 493

原创 sparksql入门总结

spark Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎支持迭代式计算，图形计算，Spark框架计算比MR快的原因是:中间结果不落盘。注意Spark的Shuffle也是落盘的。 Spark内置模块 Spark Core：Spark的基本功能，含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。 S...

2021-11-16 16:47:35 329

原创 spark入门总结

spark Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎支持迭代式计算，图形计算，Spark框架计算比MR快的原因是:中间结果不落盘。注意Spark的Shuffle也是落盘的。 Spark内置模块 Spark Core：Spark的基本功能，含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。 S...

2021-11-16 16:46:40 836

原创 shell入门总结

Shell-->命令行解释器，接收用户程序命令，调用系统内核执行脚本以#!/bin/bash开头（指定解析器）脚本的常用执行方式：bash或sh+脚本的相对路径或绝对路径（不用赋予脚本+x权限）输入脚本的绝对路径或相对路径执行脚本（必须具有可执行权限+x）变量：常用系统变量-->$HOME、$PWD、$SHELL、$USER、$PATH等自定义变量:定义变量：变量=值撤销变量：unset 变量声明静态变量：...

2021-11-16 16:45:49 943

原创 hivesql入门总结

HQL:DDL数据定义:创建数据库#数据库已经存在错误，增加if not exists判断create database [If not exists] database_name#数据库的描述[comment database_comment]#指定数据库在HDFS上存放的位置[location hdfs_path][with dbproperties (property_name=property_value, ...)];数据库在HDFS上的默认存储路径是/user/hive/wa

2021-11-16 16:44:29 1561

原创 hive入门总结

Hive：基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能数据存储在HDFS，底层的实现是MapReduce，spark等，运行在Yarn上。优点：（1）操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。（2）避免了去写MapReduce，减少开发人员的学习成本。（3）Hive优势在于处理大数据，支持海量数据的分析与计算。（4）Hive支持用户自定义函数，用...

2021-11-16 16:43:30 664

原创 hadoop压缩简记

Hadoop压缩配置压缩格式算法文件扩展名是否可切分对应的编码/解码器 DEFLATE DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip DEFLATE .gz ...

2021-11-16 16:42:43 165

原创 hadoop入门总结

Hadoop-->分布式系统基础架构-->解决海量数据的存储和分析计算问题Hadoop三大发行版本：Apache、Cloudera、Hortonworks。Hadoop的优势： 1)高可靠性: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。 2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。 3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。 4)高容...

2021-11-16 16:40:28 900

原创 Linux入门命令总结

linux 常用命令：一般模式-> yy-->复制光标当前一行; y数字y-->复制一段 yw-->复制一个词 p-->粘贴 u-->撤销 dd-->删除光标当前行 d数字d-->删除光标（含）后多少行 x-->向后删 X-->向前删 dw-->删除一个词 ^-->移动到行头 $...

2021-11-16 16:38:51 951

m0_58024769的博客

原创 scala编写Akka并发控制线程数量简单示例

原创 flink入门总结

原创 sparksql入门总结

原创 spark入门总结

原创 shell入门总结

原创 hivesql入门总结

原创 hive入门总结

原创 hadoop压缩简记

原创 hadoop入门总结

原创 Linux入门命令总结

openai-quickstart-node-master.zip

空空如也