大数据技术学习笔记
文章平均质量分 92
凸头到佬
大数据研发工程师
欢迎私信留言,一起学习一起进步。
展开
-
6 | 史上最全大数据笔记-Hive(下)
Hive Shell 、Hive基本查询、数据类型的讲解原创 2024-06-04 12:37:06 · 941 阅读 · 0 评论 -
5 | 史上最全大数据笔记-Hive(中)
Hive的基本操作-库、表,表类型详解。原创 2024-06-04 12:26:13 · 937 阅读 · 0 评论 -
4 | 史上最全大数据笔记-Hive(上)
hive是一个构建在Hadoop上的数据仓库工具(框架),可以将结构化的数据文件映射成一张数据表,并可以使用类sql的方式来对这样的数据文件进行读,写以及管理(包括元数据)。FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了hive这门技术,并继续发展成为一个成功的Apache项目。Hive常用的安装分三种,分别是内嵌模式、本地模式和远程模式。# --nodeps: 强制卸载,RPM卸载程序的时候,如果这个程序被其他的程序依赖,是无法卸载的。原创 2024-06-02 11:35:27 · 499 阅读 · 0 评论 -
3 | 史上最全大数据笔记-Yarn
第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成。对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的,针对Hadoop 1.0中的MapReduce在扩展性和多框架支持方面的不足,提出了全新的资源管理框架YARN.原创 2024-06-01 13:31:10 · 865 阅读 · 0 评论 -
2 | 史上最全大数据笔记-ZooKeeper
1. zookeeper是一个为分布式应用程序提供的一个分布式开源协调服务框架。是Google的Chubby的一个开源实现,是Hadoop和Hbase的重要组件。主要用于解决分布式集群中应用系统的一致性问题。2. 提供了基于类似Unix系统的目录节点树方式的数据存储。3. 可用于维护和监控存储的数据的状态的变化,通过监控这些数据状态的变化,从而达到基于数据的集群管理4. 提供了一组原语(机器指令),提供了java和c语言的接口。原创 2024-05-29 12:29:44 · 624 阅读 · 0 评论 -
1 | 史上最全大数据笔记-HDFS
最近几年,IT行业最火的名词中,少不了"大数据"、"人工智能"、"云计算"、"物联网"、"区块链"等等这些名词。针对于"大数据"这个名词,现在更是全国老百姓,老少皆知的一个词语。但是什么是大数据,除了IT行业的专业人士外,其他人乃至其他行业的人,除了能说出"数据量大"之外,好像真的不能再更深层次的解释了。维基百科:数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信息。麦肯锡全球研究所:一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据集合。原创 2024-05-27 22:36:37 · 1174 阅读 · 0 评论