大数据
文章平均质量分 84
大数据
Allen_lixl
这个作者很懒,什么都没留下…
展开
-
【大数据进阶第三阶段之DolphinScheduler学习笔记】深度解析DolphinScheduler(海豚调度)
Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。原创 2024-01-11 08:11:11 · 1769 阅读 · 0 评论 -
【大数据进阶第三阶段之DolphinScheduler学习笔记】DolphinScheduler快速上手
大数据DolphinScheduler快速上手原创 2024-01-10 09:15:14 · 772 阅读 · 0 评论 -
【大数据进阶第三阶段之DolphinScheduler学习笔记】DolphinScheduler(海豚调度)的部署指南
只需要更改 dolphinscheduler-worker 服务的镜像.创建一个新的Dockerfile,用于安装 pip:这个命令会安装默认的pip 18.1. 如果你想升级 pip, 只需添加一行构建一个包含 pip 的新镜像:推送 docker 镜像到一个 docker registry 中修改文件中 image 的repository字段,并更新tag为pip部署 dolphinscheduler (详见安装 dolphinscheduler在一个新 Python 任务下验证 pip。原创 2024-01-10 09:14:43 · 2611 阅读 · 0 评论 -
【大数据进阶第三阶段之ClickHouse学习笔记】ClickHouse的简介和使用
ClickHouse是一种,专门用于和应用。它是一个开源的数据库系统,最初由俄罗斯搜索引擎公司Yandex开发,用于满足。原创 2024-01-09 08:36:33 · 1751 阅读 · 0 评论 -
【大数据进阶第三阶段之Hue学习笔记】Hue的安装和使用
Hue的安装支持多种方式,包括rpm包的方式进行安装、tar.gz包的方式进行安装以及cloudera manager的方式来进行安装等,我们这里使用tar.gz包的方式来进行安装Hue的压缩包的下载地址:我们这里使用的是CDH5.14.0这个对应的版本,具体下载地址为。原创 2024-01-09 08:35:44 · 2389 阅读 · 0 评论 -
【大数据-Datax】ERROR Engine -经DataX智能分析,该任务最可能的错误原因是:com.alibaba.datax.common.exception.DataXException
com.alibaba.datax.common.exception.DataXException: Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的 作业配置 .] - 配置信息错误,您提供的配置文件[D:\dev\datax\plugin\reader\._cassandrareader\plugin.json]不存在. 请检查您的配置文件.删除plugin 目录下的reader文件和writer文件夹下的 ._xxx 文件。原创 2024-01-08 09:37:27 · 1889 阅读 · 0 评论 -
【大数据进阶第三阶段之Hue学习笔记】Hue简介和架构介绍
Hue 是一个开源的 Apache Hadoop UI 系统,由 Cloudera Desktop 演化而来,最后 Cloudera 公司将其贡献给 Apache 基金会的 Hadoop 社区,它是基于 Python Web 框架 Django 实现的。通过使用 Hue 我们可以在浏览器端的 Web 控制台上与 Hadoop 集群进行交互来分析处理数据,例如操作 HDFS 上的数据、运行 MapReduce Job、执行 Hive 的 SQL 语句和浏览 HBase 数据库等。原创 2024-01-08 09:37:10 · 1727 阅读 · 0 评论 -
【大数据进阶第三阶段之Datax学习笔记】使用阿里云开源离线同步工具DataX 实现数据同步
使用阿里云开源离线同步工具DataX 实现数据同步原创 2024-01-07 08:35:21 · 1223 阅读 · 0 评论 -
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax概述
DataX 是阿里云的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。原创 2024-01-07 08:33:53 · 1408 阅读 · 0 评论 -
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax类图
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax类图原创 2024-01-07 08:33:16 · 699 阅读 · 0 评论 -
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax快速入门
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Data快速入门原创 2024-01-07 08:32:38 · 894 阅读 · 0 评论 -
【大数据进阶第三阶段之Hive学习笔记】Hive的数据类型与数据操作
创建一个数据库,数据库在HDFS上的默认存储路径是/opt/hive/warehouse/*.db避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)创建一个数据库,指定数据库在HDFS上存放的位置create database if not exists hivetest location 'hdfs路径';原创 2024-01-06 08:05:34 · 1183 阅读 · 0 评论 -
【大数据进阶第三阶段之Hive学习笔记】Hive基础入门
Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive设计的初衷是:对于大量的数据,使得数据汇总,查询和分析更加简单。它提供了SQL,允许用户更加简单地进行查询,汇总和数据分析。同时,Hive的SQL给予了用户多种方式来集成自己的功能,然后做定制化的查询,例如用户自定义函数(User Defined Functions,UDFs).Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序。原创 2024-01-06 08:05:09 · 1034 阅读 · 0 评论 -
【大数据进阶第三阶段之Hive学习笔记】Hive安装
安装hadoop 以及 zookeeper、mysql《zookeeper的安装与配置》《Linux环境配置MySQL》原创 2024-01-05 09:17:54 · 854 阅读 · 0 评论 -
【大数据进阶第三阶段之Hive学习笔记】Hive常用命令和属性配置
1.修改/opt/hive/conf/hive-log4j.properties.template文件名称为hive-log4j.properties。在hive-site.xml文件中添加如下配置信息,就可以实现显示当前数据库,以及查询表的头信息配置。Hive的log默认存放在/tmp/root/hive.log目录下(root为当前用户名)hive -f sql文件路径/sql文件名称 > 保存结果的路径。修改hive的log存放日志到/opt/hive/logs。hive -e "查询语句"原创 2024-01-05 09:17:06 · 1197 阅读 · 0 评论 -
python学习之一百实例收集【更新中】
python学习之一百实例收集原创 2024-01-04 12:45:04 · 489 阅读 · 0 评论 -
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建
(1)使用 yum 安装需要虚拟机可以正常上网,yum 安装前可以先测试下虚拟机联网情况(2)安装epel-release(3)注意:如果Linux 安装的是最小系统版,还需要安装如下工具;如果安装的是Linux桌面标准版,不需要执行如下操作net-tool:工具包集合,包含ifconfig 等命令vim:编辑器。原创 2024-01-04 10:28:57 · 1656 阅读 · 0 评论 -
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 概述
简称HDFS,是一个分布式文件系统。(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。(2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。(3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。原创 2024-01-04 10:28:17 · 1394 阅读 · 0 评论 -
mysql:1153 Got a packet bigger than ‘max_allowed_packet’ bytes的错误
这个问题是在迁移、备份还原或数据导入时报错:1153 Got a packet bigger than ‘max_allowed_packet’ bytes。原创 2024-01-02 12:36:01 · 1222 阅读 · 0 评论 -
mysql: 2006, ‘MySQL server has gone away‘
这个问题是在迁移、备份还原或数据导入时报错:2006, ‘MySQL server has gone away‘原创 2024-01-02 12:34:15 · 549 阅读 · 0 评论 -
【大数据学习笔记】最全Python连接各种数据库及对应的CRUD操作
本文将详细探讨如何在Python中连接全种类数据库以及实现相应的CRUD(创建,读取,更新,删除)操作。我们将逐一解析连接MySQL,SQL Server,Oracle,PostgreSQL,MongoDB,SQLite,DB2,Redis,Cassandra,Microsoft Access,ElasticSearch,Neo4j,InfluxDB,Snowflake,Amazon DynamoDB,Microsoft Azure CosMos DB数据库的方法,并演示相应的CRUD操作。原创 2023-12-24 20:51:02 · 1036 阅读 · 0 评论 -
【MySQL笔记】MySQL数据库分库分表解读
range来分,每个库一段连续的数据,这个一般是按比如时间范围来的,但是这种一般较少用,因为很容易产生热点问题,大量的流量都打在最新的数据上了,优点:扩容的时候,就很容易,因为你只要预备好,给每个月都准备一个库就可以了,到了一个新的月份的时候,自然而然,就会写新的库了 缺点:大部分的 请求,都是访问最新的数据。第一种:SQL问题,如SQL中包含join,group by,order by,非索引字段条件查询等,增加CPU运算的操作 -> SQL优化,建立合适的索引,在业务Service层进行业务计算。原创 2023-04-25 19:34:19 · 589 阅读 · 0 评论 -
【大数据】2024年大数据新手学习路线图【更新中】
大数据学习路径图原创 2023-12-24 20:32:53 · 2117 阅读 · 0 评论