自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 数据仓库Hive

什么是hivehive是建立在hadoop上的数据仓库基础构架。提供了一系列的工具,可以用来数据的提取转化加载(ETL)Hive定义了简单的类sql语言,允许熟悉sql的用户直接查询hadoop中的数据,同时,这个语言也允许熟悉MapReduce的开发者开发自定义函数来完成sql函数无法完成的复杂分析任务Hive中包含解析sql的引擎,它将sql语句转译成MR job 然后在hadoop中执行hive的系统架构用户接口:CLI,JDBC/ODBC,WebUI元数据存储(MetaStore):m

2021-04-08 21:31:45 552

原创 快速了解spark

初识Spark什么是sparkspark是用于大规模数据处理的计算引擎。离线spark core 、spark sql;实时数据计算spark streaming基于内存的计算引擎(速度会比MapReduce快几十倍)spark 特点速度快(基于内存、DAG scheduler)易用性(高阶函数,支持多种编程语言)通用性到处运行spark对比Hadoophadoop是一个平台。包含了 MapReduce(计算引擎)HDFS(存储)Yarn(资源管理)。所以从综合能力还说Had

2021-04-08 15:19:55 122

原创 Java基础-计算机网络面试相关整理

OSI七层模型物理层:传输比特流数据链路层:如何格式化数据。将比特数据变成帧网络层:网络地址翻译成物理地址,如何将数据由发送方路由到接收方。(IP协议)传输层:保证大量文件传输准确性,需对发送文件进行切分。对数据流控和差错校验。保证传输质量(TCP UDP)会话层:建立、管理、终止会话表示层:语义转化应用层:(HTTP)TCP三次握手、四次挥手TCP报文头序列号seq:4字节。确认ACK:1 有效 0 无效同步SYN:1 表示连接请求。0 握手成功之后会被置0终止FIN:释

2021-04-06 23:39:18 68

原创 Hadoop 3.0x 内容整理

Hadoop 3.0x官方文档JDK版本升级Hadoop 3.0x 所有的JAR编译均是在Java 8 环境下编译的。HDFS Erasure Coding (EC)Erasure Coding :数据恢复的一种编码容错技术。能节省数据副本存储的磁盘空间。相比2.0x版本能节省一半的磁盘空间,但是会消耗更多其他的资源,比如网络带宽或者CPU有校验数据块和原始数据块两部分。校验数据块可以...

2020-03-28 20:46:17 285

原创 Mapreduce相关整理

MapReduce编程模型1.inputFormat 输入文件,split拆分。2.Mapping阶段,按指定分割符拆分数据,按指定格式输出。3.shuffle阶段,依据key对数据进行归并,将相同的key的数据整合到一起。4.reduce阶段,逻辑运算,如求和,求平均等。Map阶段:map taskpublic class WordCountMapper extends Mappe...

2020-03-23 21:24:18 90

原创 HDFS整理

HDFS副本摆放策略若本地节点是DN,则本地节点一份;同机架的随机另一个节点一份;不同机架随机节点一份。若本地节点不是DN,则随机节点一份;该节点同机架随机另一节点一份;不同机架随机节点一份。HDFS写数据流程HDFS读数据hdfs shell命令-ls 显示文件、目录信息-mkdir 在hdfs上创建目录,-p表示会创建路径中的各级父目录-put 将单个src或多个srcs从...

2020-03-13 11:38:18 97

原创 ubuntu18 安装 Docker Docker-compose

ubuntu安装docker sudo apt-get install docker.io拉取hello-world镜像验证docker是否安装成功。sudo docker pull hello-world运行hello-worldsudo docker run hello-worldPS:不使用sudo 即可执行docker命令sudo groupadd dockersud...

2020-02-26 16:51:35 266

原创 Java基础 - 集合框架

treeset 实现排序 实现comparable接口。HashMap:Java8前:数组+链表通过hash(key.hashcode())%len计算要添加的元素存放的数组位置。如果总是分配到同一个桶中,则会性能恶化从O(1)变成O(n)Java8后:数组+链表+红黑树TREEIFY_THRESHOLD 将链表转化成红黑树 将最坏性能从O(n)提升为O(logn)HashMap ...

2020-02-19 15:01:01 137

原创 Java基础 - java多线程与并发

Q1:进程和线程的区别进程独占内存空间,保存各自运行状态,相互间不干扰且可以互相切换,为并发处理任务提供可能。线程共享进程的内存资源,相互间切换更快速,支持更细粒度的任务控制,使进程内的子任务得以并发执行。进程是资源分配的最小单位。线程是CPU调度的最小单位。线程不能看做独立应用,而进程可以看做独立应用。线程有独立地址空间,相互不影响,线程只是进程的不同执行路径。线程没有独立的地址空...

2020-02-14 17:12:26 86

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除