自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 4 步搞定网页数据!EasySpider 新手实操手册

《零代码可视化爬虫工具EasySpider使用指南》摘要:本文介绍了一款无需编程的可视化爬虫工具EasySpider,支持图形化操作完成网页数据采集。教程详细展示了从软件下载安装到任务设计的完整流程,包括翻页设置、详情页数据采集等关键步骤。该工具适用于各类网页公开资源采集,支持命令行嵌入和免费商用,特别适合零基础用户快速上手。操作过程配有详细步骤说明和截图指引,用户可轻松完成从任务设计到数据导出的全流程。

2025-12-01 11:27:26 815

原创 HQL 的转化为MapReduce的过程

当用户提交HQL查询时,Hive首先对查询进行解析,然后Hive会生成逻辑计划,Hive会对逻辑计划进行优化,经过优化的逻辑计划将被转换为物理计划,生成的MapReduce作业会被提交到Hadoop集群进行执行

2025-05-29 18:20:22 899

原创 HiveQL的DQL数据查询语言的 基础查询语句及其注意事项

1-- from子句2-- where子句3-- group by 子句4-- having 子句5-- select子句6-- order by 子句要求是分组字段或者是聚合函数应用的字段。

2025-05-28 14:00:46 1126

原创 HiveQL的DML数据操纵语言:

DML--load加载数据(注意local含义):功能:load加载操作是将数据文件移动到与 Hive表对应的位置的纯复制/移动操作,不会对数据进行任何的修改。语法:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] Local关键字的含义 local表示是从本地 (HS2本地) 文件系统加载数据到Hive的表中;

2025-05-26 20:03:11 836

原创 HiveQL中常见的show语法

show databases 数据库,show tables 表,show partitions 表的所有分区 注意必须是分区表才可以执行该语法,desc formatted table_name查看表的元数据信息,show create table table_name获取表的DDL建表语句,show functions; 函数方法

2025-05-26 19:59:40 429

原创 HiveQL的DDL数据定义语言:

1、 表存在忽略异常:建表的时候,如果表名已经存在,默认会报错,通过IF NOT EXISTS关键字可以忽略异常。2、Hive除了支持SQL类型之外,还支持java数据类型;Hive除了支持基础数据类型之外,还支持复合类型(array数组 map映射);针对复合类型的数据 要想直接从文件中解析成功 还必须配合分隔符指定的语法。分隔符指定语法4、 默认分隔符5、 内部表、外部表6、 location存储位置:不管是内部表,还是外部表,在HDFS上的路径如下7、 分区表注意事项、分区表创

2025-05-23 09:28:11 868

原创 CDH 大数据平台, Cloudera Manager大数据平台介绍,使用 HUE 操作 oozie,完成日常调度的工作

工作流一般要满足以下几个特征:1- 一个流程是可以被拆解为多个阶段(步骤)2- 多个阶段之间存在依赖关系, 前序没有执行, 后续无法执行3- 整个流程 需要周而复始不断的干如何使用oozie:  1- 开启 HUE 对 oozie的支持2- 重启 HUE , 实现配置生效......

2025-05-21 19:16:28 341

原创 数仓建模:维度建模的基本流程,以及三个基础的建模模型

 维度建模的基本流程:1.选取业务在维度建模之前,首先要明确所要建模的业务处理过程。这是确定数据仓库的核心目标和范围。通过与业务相关的人员沟通和了解,确定要分析和监控的关键业务过程,如销售、客户关系管理、供应链等。选择合适的业务处理过程是建立有效数据模型的基础

2025-05-20 18:03:53 386

原创 Yarn的调度流程

resourcemanager 负责整个集群的资源管理和分配,是一个全局的资源管理系统,一个集群只有一个。ApplicationMaster启动后,会向ResourceManager注册,并请求必要的资源。任务完成后,ApplicationMaster会向ResourceManager注销并关闭自己。ResourceManager根据调度策略分配资源给ApplicationMaster。所谓的调度器指的是当集群繁忙的时候 如何给申请资源的程序分配资源。主角色 resourcemanager RM。

2025-05-18 19:56:50 384

原创 MapReduce分而治之的思想,计算流程,MapReduce 的优化

核心:先分再合,分而治之。使用场景:面对复杂的任务、庞大的任务如何高效处理?前提:任务可以拆分,拆分之后没有依赖关系。MapReduce的计算流程:① 分片、格式化数据源 输入 Map 阶段的数据源,必须经过分片和格式化操作。② 执行 MapTask每个 Map 任务都有一个内存缓冲区(缓冲区大小 100MB ),输入的分片( split )数据经过 Map 任务处理后的中间结果会写入内存缓冲区中。

2025-05-18 15:42:40 1064

原创 HDFS的原理,特性,工作机制,基础优化

HDFS的介绍:分布式文件系统,由多台机器共同存储文件,存储数据。HDFS--核心重要特性:主从结构:主角色:namenode 管理维护着元数据:目录树结构,文件的大小,备份,副本,位置信息。从角色:datanode 管理着最终的数据块。

2025-05-17 16:12:34 802

原创 作为一个大数据开发者,我们要知道Hadoop的基础知识

调度策略:先来后到,权重)Hadoop MapReduce:分布式计算框架,解决了海量数据计算问题。主角色辅助角色“秘书角色”:secondarynamenode(SNN)Hadoop HDFS:分布式文件系统,解决了海量数据存储问题。分布式,扩容,成本低,通用性,简单易用,高效率并发能力,可靠性。Q:如果后续需要扩容hadoop集群,应该增加哪些角色呢?如果进程不在 看启动运行日志!#hadoop2.x版本命令。#hadoop3.x版本命令。#hadoop2.x版本命令。#hadoop3.x版本命令。

2025-05-15 20:36:06 459

原创 Apache zookeeper--概述、定位、功能

zookeeper是一个分布式的协调服务软件。分布式:多台机器的环境。 协调服务:在分布式的环境下,如何控制大家有序的去做某件事。顺序,一致,共同,共享。这个软件能用来干什么?这个软件怎么用?这个软件有什么特性和优缺点?

2025-05-15 15:21:20 358

原创 大数据项目中ODS层在hive数仓建库建表要考虑的因素

但对于我们只需要在hive中建表,数据本身在HDFS上,数据直接映射到表中,我们只建表而不处理数据,对数据没控制权,此时创建外部表。②构建分桶表:分区之后,数据量还是很大,需要对表进行数据采样,或后续需要用SMB或bucket Map Join的方式来优化,此时构建分桶表。:贴源层,对接数据源,与数据源保持相同的粒度,说白了就是将数据源中的数据拷贝到ODS层,数据源有哪些表,ODS层旧创建哪些表,字段保持一致。③除ODS层,其余层次都建议使用orc,有一些特殊的优化,建立在orc存储方案上。

2025-05-13 23:06:29 376 2

原创 DolphinScheduler任务调度的基本使用方法

DolphinScheduler是apache旗下一款顶级的工作流调度系统。主要作用: 实现工作流的调度操作 与 oozie是同类型的软件, 只不过比ooize提供了更加友好的操作界面, 可以直接通过界面对工作流进行完整的配置 启动 监控等相关的工作。需要的技能:使用 DolphinScheduler 来完成日常的任务调度工作。

2025-05-13 15:38:40 669

原创 sqoop对接数据源,基于sqoop完成数据采集操作

sqoop list-tables --connect jdbc:mysql://node1:3306/库名 --username root --password xxxxxx。cl1 decimal(10, 8) comment '非养老类业务一表,男(CL1)',cl2 decimal(10, 8) comment '非养老类业务一表,女(CL2)',cl4 decimal(10, 8) comment '非养老类业务二表,女(CL4)',--table 表名\。

2025-05-13 09:17:04 376

原创 在终端中如何退出客户端程序(严禁使用ctrl+z)

使用ctrl+z并没有退出客户端,实际上是挂载在后台了。

2025-02-07 18:15:34 156

原创 在终端创建软连接

检查是否创建成功:用命令ls查看目标文件所放的目录。命令格式为:ln -s 源文件 目标文件。在终端创建软连接可以用ln命令。

2025-02-07 16:03:26 169

原创 终端tar解压 .tar 和.tar.gz 命令的区别

解压 .tar.gz或 .tgz文件用 tar -xzf解压。解压 .tar文件用tar -xvf解压。tar -xzf 文件名 -C 终端目录。

2025-02-06 19:23:36 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除