![](https://img-blog.csdnimg.cn/03c74d26c7ab48309ce59c5e32b5d8ef.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 90
大数据学习笔记
梁辰兴
深情不及久伴,紘爱无需多言。
展开
-
在centos虚拟机中修改IP地址
键进入插入状态,开始修改和添加;原创 2022-09-27 09:56:59 · 7168 阅读 · 0 评论 -
OpenStack私有云安装配置虚拟机
基于镜像源创建实例,绑定先前我们在自建网络里创建的端口,这样我们创建的实例就有了固定的私有IP地址,但是为了使用finalshell工具软件来SSH连接虚拟机实例,我们还得绑定一个浮动IP地址,接下来学习如何创建实例。基于路由添加接口之后,我们创建的网络与校园网就连接起来,后面我们创建的实例就可以通过校园网ping通外网(因特网)。要让我们创建的实例(虚拟机)有固定的IP地址,我们需要创建端口,绑定固定的IP地址。我们创建的网络要与校园网建立连接,首先得创建路由,下面我们学习创建路由的步骤。原创 2022-10-13 14:47:17 · 2036 阅读 · 0 评论 -
大数据:HBase 集群搭建(master、slave1和slave2)
大数据的概念在不断地发酵,进入这个领域的人越来越多。在大数据的领域内,HBase的概念已成为企业和求学者都需要关注的一个重点。HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。原创 2022-10-10 22:56:48 · 2703 阅读 · 0 评论 -
HBase 架构
包含访问HBase的接口并维护cache来加快对HBase的访问。原创 2022-10-12 11:06:28 · 4643 阅读 · 0 评论 -
大数据:Hadoop3.x集群搭建
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;原创 2022-11-06 17:33:37 · 1024 阅读 · 0 评论 -
大数据:Zookeeper 集群搭建
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper包含一个简单的原语集,提供Java和C的接口。原创 2022-11-06 17:28:18 · 530 阅读 · 0 评论 -
大数据:Flume安装部署和配置
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。数据采集我们使用Flume。原创 2022-11-16 20:27:06 · 4530 阅读 · 0 评论 -
大数据:Hive3.x安装部署和配置
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。原创 2022-12-12 15:03:12 · 1525 阅读 · 2 评论 -
大数据:HDFS的Shell常用命令操作
HDFS允许用户数据组织成文件和文件夹的方式,它提供一个叫DFSShell的接口,使用户可以和HDFS中的数据交互。命令集的语法跟其他用户熟悉的shells(bash,csh)相似。Shell在计算机科学中俗称“壳”,是提供给使用者使用界面的进行与系统交互的软件,通过接收用户输入的命令执行相应的操作,Shell分为图形界面Shell和命令行式Shell。文件系统(FS)Shell包含了各种的类Shell的命令,可以直接与Hadoop分布式文件系统以及其他文件系统进行交互。三种Shell命令方式命令。原创 2022-11-26 22:01:26 · 5128 阅读 · 0 评论 -
Shell定时采集数据到HDFS
服务器每天会产生大量日志数据,并且日志文件可能存在于每个应用程序指定的data目录中,在不使用其它工具的情况下,将服务器中的日志文件规范地存放在HDFS中。为了模拟生产环境,在日志存放目录/export/data/logs/log/中,手动创建日志文件,access.log表示正在源源不断的产生日志的文件,access.log.1、access.log.2等表示已经滚动完毕的日志文件,即为待上传日志文件。上传文件的过程就是遍历文件目录的过程,将文件首先移动到待上传目录,再从待上传目录中上传到HDFS中。原创 2022-11-28 00:02:56 · 2735 阅读 · 2 评论 -
使用IDEA工具,通过Java API 操作 HDFS (文件/目录的操作,含源码,详细操作步骤)
Hadoop文件系统API文档:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/filesystem/index.htmlHadoop整合了众多文件系统,HDFS只是这个文件系统的一个实例,下表整合了一些类或接口:FileSystem类API文档:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/filesystem/原创 2022-12-12 21:39:17 · 4205 阅读 · 2 评论 -
在IDEA中配置Maven
Maven 项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件。Maven 除了以程序构建能力为特色之外,还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性,所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法,许多 Apache Jakarta 项目发文时使用 Maven,而且公司项目采用 Maven 的比例在持续增长。请参考本文:《Maven 的安装与配置》1.找到配置文件,在conf目录下的se原创 2022-12-07 12:49:53 · 4103 阅读 · 0 评论 -
MapReduce 编程实例:词频统计
1.右击resources目录,单击【new】选择【resources bundle】,弹出下图界面输入log4j,单击【ok】按钮。在export目录下,创建wordcount目录,在里面创建words.txt文件,向words.txt输入下面内容。2.在弹出的【Create Resource Bundle】对话框中输入:log4j,单击【OK】按钮。1.右击【net.army.mr】包,选择【new】,单击【java class】1.选择【Maven】,选择【jdk】版本,单击【Next】按钮。原创 2022-12-14 13:48:49 · 5801 阅读 · 7 评论 -
大数据MapReduce学习案例:倒排索引
倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。倒排索引主要用来存储某个单词(或词组)在一组文档中的存储位置的映射,提供了可以根据内容来查找文档的方式,而不是根据文档来确定内容,因此称为倒排索引(Inverted Index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(Inverted File)。原创 2022-12-14 10:16:23 · 1471 阅读 · 0 评论 -
大数据MapReduce学习案例:数据去重
数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选,数据去重指去除重复数据的操作。在大数据开发中,统计大数据集上的多种数据指标,这些复杂的任务数据都会涉及数据去重。原创 2022-12-14 13:05:00 · 2015 阅读 · 0 评论 -
大数据MapReduce学习案例:TopN
TopN分析法是指从研究对象中按照某一个指标进行倒序或正序排列,取其中所需的N个数据,并对这N个数据进行重点分析的方法。原创 2022-12-14 19:05:12 · 1111 阅读 · 0 评论 -
Hadoop 综合训练:文件内容的显示与排序
创建Maven项目MaxAvgProfit,利用利用MapReduce计算框架,处理profit.txt文件,输出每月最大利润和平均利润。1.右击resources目录,单击【new】选择【resources bundle】,弹出下图界面输入log4j,单击【ok】按钮。2.在弹出的【Create Resource Bundle】对话框中输入:log4j,单击【OK】按钮。1.右击【net.army.mr】包,选择【new】,单击【java class】1.设置为下图所示,单击【Create】按钮。原创 2022-12-15 08:43:13 · 1026 阅读 · 1 评论 -
DBeaver连接hive(详细图解)
dbeaver是免费和开源(GPL)为开发人员和数据库管理员通用数据库工具。易用性是该项目的主要目标,是经过精心设计和开发的数据库管理工具。免费、跨平台、基于开源框架和允许各种扩展写作(插件)。它支持任何具有一个JDBC驱动程序数据库。它可以处理任何的外部数据源。原创 2022-12-17 13:00:56 · 15944 阅读 · 1 评论 -
Hbase Shell 操作
制定多个列族 create ‘mydb:test4’,{NAME=’f1’},{NAME=’f2’} 也可以。Delete ‘stu’,’1001’,’info:name’ 删除最新的版本,原来的版本还在。在利用scan ‘stu’,{RAW=>true,VERSION=>5} 查看。或者alter ‘mydb:test4’, ‘delete’=>’f3’可以制定列查询 get ‘stu’,’1004’,’info:name’2.读取指定列:get ‘stu’,’1004’,’info:name’原创 2022-12-17 20:35:44 · 1596 阅读 · 0 评论 -
Hive DDL 数据定义
1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)3)创建一个数据库,指定数据库在 HDFS 上存放的位置。二,查询数据库(一)显示数据库1)显示数据库2)过滤显示查询的数据库(二)查看数据库详情1)显示数据库信息2)显示数据库详细信息,extended(三)切换当前数据库三,修改数据库用户可以使用 ALTER DATAB原创 2022-12-20 08:39:04 · 469 阅读 · 0 评论 -
Hive DML 数据操作
(2)local:表示从本地加载数据到 hive 表;insert into:以追加数据的方式插入到表或分区,原有数据不会删除。(4)overwrite:表示覆盖表中已有数据,否则表示追加。根据查询结果创建表(查询的结果会添加到新创建的表中)4)多表(多分区)插入模式(根据多张表查询结果)(5)into table:表示加载到哪张表。(1)load data:表示加载数据。(3)inpath:表示加载数据的路径。3)基本模式插入(根据单张表查询结果)(6)student:表示具体的表。原创 2022-12-20 08:52:04 · 165 阅读 · 0 评论 -
Hive 查询
[在这里插入图片描述](https://img-blog.csdnimg.cn/0132a5d82b034fe0a405176cdacd31d7.png)原创 2022-12-20 09:25:55 · 473 阅读 · 0 评论 -
Hive 分区表和分桶表
在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。关系型数据库中,对分区表 Insert 数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive 中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用 Hive 的动态分区,需要进行相应的配置。(2)设置为非严格模式(动态分区的模式,默认 strict,表示必须指定至少一个分区为静态分区,nonstrict 模式表示允许所有的分区字段都可以使用动态分区。原创 2022-12-20 09:40:58 · 211 阅读 · 0 评论