- 博客(8)
- 收藏
- 关注
原创 Mysql基础一
一、连接服务器mysql -h host -u username -p password;//-h:连接服务器的ip地址及端口号,连接本机该参数可省略//-u:用户名//-p:用户名对应的密码二、退出quit/exit三、常用语句及函数select version(),current_date();//查看数据库版本及当期日期describe/desc tb_name; //查看表结构show index from tb_name;//如果表有索引,生成有关索引的信息ri
2021-08-19 15:35:42 126
原创 CheckPoint(HDFS/Spark/Flink/)
hdfs:每隔一段时间,会由SecondaryNameNode将NameNode上积累的所有edits和最新的一个fsimage下载到本地,并加载到内存进行merge(合并),这个过程称为checkpoint目的:(1)大大缩小了操作日志的大小(2)合并之后的磁盘镜像文件可以被nameNode快速的加载到内存中Spark:Spark的CheckPoint是为了通过lineage做容错的辅助,lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,
2021-04-17 22:47:22 1370
原创 Hive
一、Hive基本概念1.1Hive简介什么是HiveHive是由Facebook实现并开源,是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(Hive SQL)查询功能,底层数据是存储在HDFS上,Hive的本质是将HQL语句转换为MapReduce任务运行,使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化的数据,适用于离线的批量数据计算数据仓库之父比尔·恩门(Bill Inmon)在 1991 年出版的“Building th
2021-03-18 00:31:20 162
原创 YARN
一、YARN概述YARN(Yet Another Resource Negotiator)Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序Hadoop2.x之后,把原来的MapReduce集群分裂成了MapReduce编程API和YARN集群注意:yarn并不清楚用户提交的程序的运行机制yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn负责分配资源)yarn中的主管角
2021-03-15 22:45:29 166
原创 ZooKeeper
概述1.1、Zookeeper的作用:解决分布式文件系统中的一些业务协调问题1.2、底层算法:paxos1.3、Znode:Zookeeper目录树中每个节点对应一个Znode(1)每个Znode节点既可以存储数据,也可以挂载子节点(2)Znode只能存储小量的数据,适合存储小量的关键性数据(3)每个节点都有一个唯一的绝对路径,不存在相对路径1.4、节点类型不带序列号的临时节点(ephemeral):临时创建的,会话结束时会被自动删除,临时节点无法挂载子节点带序列号的临时节点(
2021-03-08 16:49:42 340 3
原创 大数据生态圈及HDFS
一、 大数据概念1.1、大数据传统数据处理应用软件不足以处理(存储和计算)它们的大而复杂的数据集。主要解决海量数据的存储和海量数据的运算问题。1.2、数据单位bit、byte(B)、KB、MB、GB、TB、PB、EB、ZB1.3、大数据的特征:容量大:数据的大小决定所考虑的数据的价值和潜在的价值种类多:结构化数据、半结构化数据(xml,html)、非结构化数据 速度快:数据的产生呈指数式爆炸生长,处理数据时延越来越低价值高:综合价值大,隐含价值大。无用数据多(价值密度低)。1.4、元数据
2021-03-02 23:31:20 370
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人