大数据进击之路
文章平均质量分 72
个人喜欢研究技术,在这里我将记录大数据探索道路上的笔记,希望能够帮到大家。
程序员小陶
公众号:大数据学习指南
展开
-
海豚调度监控:使用图关系网络解决核心链路告警,减轻任务运维负担!
DolphinScheduler 在使用过程中,肯定会有任务出现失败的情况,那么问题来了:调度任务的告警是需要人为配置的,在生产环境中,面对海量的任务,如何找到重要的任务,并且在失败的时候,第一时间告警呢?原创 2024-06-20 17:42:17 · 813 阅读 · 0 评论 -
海豚调度异常处理: 使用 arthas 在内存中删除启动失败的工作流
大家好,我是小陶,DolphinScheduler 运行过程中会出现一些不可控的异常,可以使用 Arthas 轻松处理 JVM 中的对象,不需要重启服务。原创 2024-06-14 15:35:03 · 698 阅读 · 0 评论 -
海豚调度清理:使用 API 轻松清理历史工作流实例以及日志文件
DolphinScheduler 运行一段时间之后,会积累大量的历史运行记录,这些记录主要包括:工作流实例记录(MySQL)、任务实例记录(MySQL)、任务日志(本地磁盘),其中 MySQL 的记录越来越多,会影响页面分页查询的速度,进而影响用户使用体验和 MySQL 服务。所以,需要清理以上历史记录,保证页面影响速度和 MySQL 服务。本文的内容也比较简单,先是说明 API 的逻辑、存在的bug和修复方法,最后再介绍如何使用一个 Python 脚本来调用 API 删除历史实例。原创 2024-06-12 15:34:31 · 1207 阅读 · 0 评论 -
datax同步数据翻倍,.hive-staging 导致的问题分析
同事反馈 Datax 从 Hive 表同步数据到 Mysql 数据翻倍了。通过查看 Datax 任务日志发现,翻倍的原因是多读取了 .hive-staging_xx 开头的文件。接下里就是有关 .hive-staging 的分析。原创 2023-09-22 15:44:23 · 513 阅读 · 0 评论 -
海豚调度 DolphinScheduler(2.x和3.x版本) 本地环境搭建,方便本地调式代码
DolphinScheduler 的开源版本有不少的 BUG,所以在公司生产使用的话,需要做二次迭代优化,二开的过程,本地调试是不可以或缺的。今天记录一下本地开发环境搭建的过程,适用于 2.x 和 3.x 版本,这两个大版本区别不大,下面会进行说明。原创 2023-06-30 18:20:22 · 5358 阅读 · 0 评论 -
clickhouse 获取几天前的日期
ClickHouse 版本: 20.7.2.30获取 N 天前获取当前时间的N天前select subtractDays(now(),n)获取指定日期的N天前select subtractDays(toDateTime('2020-11-29 09:15:00'),n)原创 2021-11-19 11:56:47 · 5702 阅读 · 0 评论 -
万字长文带你从零开始认识机器学习
版权说明:本文系转载。本文中的所有文字,图片,代码的版权都是属于作者和博客园共同所有。在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一:图1 机器学习界的执牛耳者与互联网界的大鳄的联姻这幅图上上的三人是.原创 2021-09-02 10:18:07 · 438 阅读 · 0 评论 -
给人工智能新手,两份不同阶段的资料
这篇文章,给大家推荐两个不错的网站。即使现在用不到,可以先收藏了。01 偏理论访问:www.coursera.org 免费AI 非技术通俗讲解 等级:初级https://www.coursera.org/learn/ai-for-everyone/机器学习理论基础https://www.coursera.org/learn/machine-learning神经网络与深度学习https://www.coursera.org/learn/neural-networks-deep-learnin.原创 2021-09-02 10:05:10 · 90 阅读 · 0 评论 -
大数据开发工程师到底是干嘛的?日常做什么呢?
最近后台收到很多私信,内容大都差不多,总结下来就是:目前在学习大数据专业,想提前了解一下大数据开发工程师的工作职责是怎么的?需要提前准备些什么?大数据分了哪些岗位?笔者已从事数据开发工作三年有余,结合自己的工作经历和几位同行的经验来聊聊这几个问题。希望可以帮到你。什么是大数据?大数据的几个明显的特点:海量的数据数据多样性数据增速快以上特点带来了数据的存储和计算问题,大数据技术的出现就是为了解决上述问题的。接着往下看,下图 1-1 展示了数据端到端的流程,从左到右依次为:数据产生、数原创 2021-07-05 22:49:58 · 9621 阅读 · 8 评论 -
年度总结 | Flink 年度最佳学习路线总结
2020年,最后几天了,不管这一年过的怎么样,也都过来了,来年还是得继续努力呀。大数据学习指南给大家整理了一份年度总结系列文章,今天分享的是 Flink 学习路线。以下资料来源都有标注,基本都属于一手资料,在信息碎片横行的时代,坚持独立思考、系统学习。预祝大家学习愉快。最近更新2020年12月13日-15日,Flink Forward Asia 2020 在线峰会圆满落幕。为期三天的会议中,Flink 社区以超多干货,丰富内容打造了一场大数据与 Apache Flink 的全技术盛宴。了解 Flink原创 2020-12-29 21:23:29 · 430 阅读 · 0 评论 -
一文搞定 Hive 表分隔符
Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”\t”、”\x001″)、行分隔符(”\n”)以及读取文件数据的方法。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。Hive 的默认列分隔符 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,原创 2020-11-23 15:41:57 · 3994 阅读 · 0 评论 -
Spark 报错 DROP TABLE IF EXISTS should not show AnalysisException
spark-sql 执行执行 drop table if exists xxxx 的时候,报错信息如下:DROP TABLE IF EXISTS should not show AnalysisException,找不到表xxxx,这里其实是一个bug如图,执行 spark-shell 可以进交互终端,会显示 Spark 的版本,2.2.1问题地址:https://issues.apache.org/jira/browse/SPARK-22686在2.2.2版本开始已经解决。...原创 2020-06-23 18:42:01 · 1631 阅读 · 1 评论 -
大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。
一句话介绍一站式大数据管理和应用开发平台,具有敏捷易用,成熟稳定,安全可靠,开放灵活的特点。平台架构产品功能1、大规模数据存储与计算支持不同的存储方案和计算方案,灵活满足客户的需求。支持 HDFS、Hbase、Kudu 等从 GB 到 PB 级别的存储方案,支持 Hive 和 MapReduce 等批量计算、Spark 内存计算、Kylin 多维分析、Impala 和流式计算(开源 Spark Streaming 和自研 Sloth)等计算方案,灵活满足客户的各类场景。2、数据集成支持全量原创 2020-05-26 09:44:20 · 2440 阅读 · 0 评论 -
选择适合自己的 OLAP 引擎,干货
摘要:本文主要介绍了主流开源的OLAP引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。PS: 文章较长,建议收藏慢慢看。说起 OLAP 要追溯到 1993 年。OLAP 准则准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力准则准则4 稳定的报表能力准则5 客户/服务器体系结构准则6 维的等同性准则准则7 .原创 2020-05-20 10:52:50 · 1190 阅读 · 0 评论 -
Hive导数据到本地文件
hive -e "set hive.cli.print.header=true;select * from xxxx.xxxxxx " > xxx.txt如果不需要表头,就设置 set hive.cli.print.header=false 即可。原创 2020-05-14 14:08:09 · 545 阅读 · 0 评论 -
Hive 时间戳和日期相互转换
时间戳转成日期select distinct from_unixtime(1441565203,‘yyyy/MM/dd HH:mm:ss’) from test_date;日期转成时间戳select distinct unix_timestamp(‘20111207 13:01:03’) from test_date; // 默认格式为“yyyy-MM-dd HH:mm:ss“selec...原创 2019-05-07 13:55:27 · 38825 阅读 · 3 评论 -
运行gulp项目报错:AssertionError: Task function must be specified。
今天像往常一样,编写文章,并使用gulp bulid压缩代码,但是一运行:gulp build 就出现了这个错误:AssertionError: Task function must be specified。gulp项目需要全局安装gulp和项目内安装gulp,通过 gulp -v 查看全局gulp 和本地项目的gulp版本:image.p...原创 2018-10-12 21:56:00 · 23242 阅读 · 2 评论 -
选择适合你的开源 OLAP 引擎
摘要:本文主要介绍了主流开源的OLAP引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。PS: 文章较长,建议收藏慢慢看。说起 OLAP 要追溯到 1993 年。在1993年,E.F.Codd 及其同事制定了下面这12条规则来定义 了 OLAP准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力准则准则4 稳定的报表能力原创 2020-05-13 21:32:38 · 664 阅读 · 0 评论 -
小程序问题记录:小程序云开发获取不到数据库的记录
问题描述尝试小程序使用云数据库获取记录,进行调试的时候,控制台结果一直返回这个,如图:代码如下:wx.cloud.init();const db = wx.cloud.database()Page({ data: { }, //加载数据 onLoad:function(){ // collection 方法获取一个集合的引用 db.collect...原创 2018-09-26 16:30:24 · 14613 阅读 · 28 评论 -
干货 | 有赞数据仓库实践之路
数据仓库怎么学?从混沌期、建设期到成熟期、有赞数据仓库是怎么实践的?一、大数据环境下的有赞数据仓库二、发展历程混沌期 (乱)建设期(数仓分层、主题域划分、权限设计、数据字典、任务等级)成熟期(维度建模VS宽表、重新设计DW分层、命名规范、计算引擎进化)三、有赞数仓还在进化消除重复计算数仓的价值原文地址:戳↓https://mp.weixin.qq.com/s/wlhZ...转载 2020-04-03 19:15:44 · 264 阅读 · 0 评论 -
解决WARN TaskSchedulerImpl: Initial job has not accepted any resources;
解决WARN TaskSchedulerImpl: Initial job has not accepted any resources;spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行./spark-submit \–master spark://node01:7077 \–driver-memory 512m \ ...原创 2018-12-13 21:35:24 · 6813 阅读 · 1 评论 -
HBase 架构详解
Hbase框架介绍HBase是一个分布式的、面向列的开源数据库。不同点:l 和一般的关系数据库不同,hbase是一个适合于非结构化数据存储的数据库。l Hbase是基于列而不是基于行的模式。在分布式的生产环境中,HBase 需要运行在 HDFS 之上,以 HDFS 作为其基础的存储设施。HBase上层提供了访问的数据的 Java API 层,供应用访问存储在 HBase 的数据。在 ...原创 2018-12-06 10:24:19 · 287 阅读 · 0 评论 -
kafka 数据可靠性深度解读
文章目录kafka 数据可靠性深度解读多分区、多副本多分区的设计的特点:kafak 分区 leader 机制kafka 数据可靠性深度解读多分区、多副本kafka 的消息保存在Topic中,Topic可分为多个分区,为保证数据的安全性,每个分区又有多个Replia。多分区的设计的特点:1.为了并发读写,加快读写速度;2.是利用多分区的存储,利于数据的均衡;3.是为了加快数据的恢复速率...原创 2018-12-13 21:45:35 · 354 阅读 · 0 评论 -
kafka 如何做到1秒发布百万级条消息?
kafka 如何做到1秒发布百万级条消息kafak 提供的生产端的API发布消息到一个 topic 或者多个 topic 的一个分区(保证消息的顺序性)或多个分区(并行处理,不能保证消息的顺序性)。topic 可以理解为数据的类别,是一个逻辑概念。维护一个Topic中的分区log,以顺序追加的方式向各个分区中写入消,每一个分区都是不可变的消息队列,数据由 k , v 组成,k 是 offset...原创 2018-12-13 21:42:18 · 756 阅读 · 0 评论 -
MR自定义二次排序
在一个数据文件中,首先按照key排序。在key相同的情况下,按照value大小排序的情况称为二次排序。自定义key :NewKey实现比较规则自定义GroupingComparator方法在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现...原创 2018-12-13 21:39:58 · 448 阅读 · 0 评论 -
数据倾斜
文章目录数据倾斜什么是数据倾斜Map端倾斜(比较少见)Reduce端倾斜关联Join数据倾斜数据倾斜什么是数据倾斜数据在集群上处理时,会被分配到各个节点上,当数据分配不均匀时,个别节点的数据量特别多,会导致整个任务变慢,甚至出现内存溢出程序失败的情况。Map端倾斜(比较少见)Map端每个节点处理的数据量由InputFormat决定.对于输入数据是HDFS上的文件,FileInpu...原创 2018-12-13 21:39:08 · 314 阅读 · 0 评论 -
MR的原理和运行流程
文章目录MR的原理和运行流程Map的运行过程Reduce处理过程Shuffle过程MR运行过程Yarn && JobMR的原理和运行流程Map的运行过程以HDFS上的文件作为默认输入源为例(MR也可以有其他的输入源)block是HDFS上的文件块,split是文件的分片(逻辑划分,不包含具体数据,只包含这些数据的位置信息)。一个split包含一个或多个block,...原创 2018-12-13 21:37:50 · 22805 阅读 · 2 评论 -
HDFS的NameNode内存解析
概述从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外,本文基于社区版本Hadoop-2.4.1[1][2],虽然2.4.1之...原创 2018-12-13 21:36:56 · 263 阅读 · 0 评论 -
Hive问题汇总记录,持续更新
1.hive-site.xml s设置了 jdbc 的源,添加字符集的之后报错:配置JDBC源遇到问题 : The reference to entity “characterEncoding” must end with the ‘;’ delimiter这里的 & 应该使用转义字符 &来代替。于是,改为如下配置:另外,这里还有一些需要在 xml 中需要转...原创 2018-11-24 16:17:11 · 171 阅读 · 0 评论 -
用sqoop将mysql的数据导入到hive表中,原理分析
Sqoop 将 Mysql 的数据导入到 Hive 中准备Mysql 数据如图所示,准备一张表,数据随便造一些,当然我这里的数据很简单。编写命令编写参数文件个人习惯问题,我喜欢把参数写到文件里,然后再命令行引用。vim mysql-info,# 配置数据库连接信息--connectjdbc:mysql://192.168.33.11:3306/sqoop_test--user...原创 2018-11-24 10:25:06 · 1043 阅读 · 0 评论 -
Hive数据倾斜优化
Hive数据倾斜Group By 中的计算均衡优化1.Map端部分聚合先看看下面这条SQL,由于用户的性别只有男和女两个值 (未知)。如果没有map端的部分聚合优化,map直接把groupby_key 当作reduce_key发送给reduce做聚合,就会导致计算不均衡的现象。虽然map有100万个,但是reduce只有两个在做聚合,每个reduce处理100亿条记录。selectuser...转载 2018-11-20 10:21:02 · 196 阅读 · 0 评论 -
杀掉僵尸 MapReduce 任务的两种方式
方法一1.使用命令获取 job_idhadoop job -list2. 杀掉进程hadoop job -kill $JobId方法二使用 yarn 来管理;1.通过 web 界面(8088端口)或命令,可以查看任务ID。或者使用 yarn application -list2.使用命令杀掉任务yarn application -kill $ApplicationId...原创 2018-11-18 15:58:10 · 1215 阅读 · 0 评论 -
Hive 内置函数权威指南,操作大全
Hive 提供了很多内置的函数,可以使我们很方便的操作一些数据。比较运算1、等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSEhive> select 1 from ximi where 1=1;2、不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达原创 2018-11-17 13:34:10 · 413 阅读 · 0 评论 -
SSH详解以及免密登录配置,深入理解
前面是理论基础,后部分是免密搭建详细步骤。 Secure ShellSecure Shell(安全外壳协议,简称SSH)是一种加密的网络传输协议,目的是在不安全的网络中为网络服务提供安全的传输环境。SSH通过在网络中创建安全隧道来实现SSH客户端与服务器之间的连接。虽然任何网络服务都可以通过SSH实现安全传输,SSH最常见的用途是远程登录系统。传统的网络服务传统的网络服务...原创 2018-11-01 00:32:00 · 1379 阅读 · 0 评论 -
使用idea本地运行mapreduce程序,控制台log4j日志没有打印出来,可以这样解决
欢迎一起来交流mapreduce 项目 可以运行成功,但是控制台这几条很醒目的日志信息,说明项目没有配置log4j,在开发的过程中,我们需要更详细的日志信息来定位问题和查看整个过程。这个问题,上面控制台给了一个网址:http://logging.apache.org/log4j/1.2/faq.html#noconfig可以看到官方给的解答是:我们的项目中没有找到log4j.prope...原创 2018-11-09 15:52:25 · 5087 阅读 · 4 评论 -
在idea上配置hadoop开发环境,使用maven配置hadoop的依赖,自动管理相关jar包
使用maven可以很方便的管理我们项目的依赖,不需要手动去加载项目依赖的ja包,也方便项目的迁移,所以我选择使用 maven 来管理hadoop的开发环境的jar包。maven官网JDK版本的要求Hadoop 2.7 以及之后的版本,需要JDK 7;Hadoop 2.6 以及之前的版本,支持JDK 6;最好按照官方的来,要不然可能会出现一些小的bug。。。我配置的版本是hadoop ...原创 2018-11-09 15:22:59 · 15587 阅读 · 3 评论 -
mac电脑本地运行MapReduce, Permission denied
在本地运行mapreduce程序的时候,会默认用本地系统的用户去将作业写入hdfs文件系统(在服务器上)中, 由于此用户对hadoop目录并没有写入权限,所以导致异常的发生。解决方案:方案1:修改你要操作的目录权限hadoop fs -chmod -R 777 某目录方案2:直接修改配置文件直接在hdfs的配置文件中,将dfs.permissions修改为False...原创 2018-11-09 14:46:06 · 633 阅读 · 0 评论 -
mac 下 ssh被拒绝
sh localhostssh: connect to host localhost port 22: Connection refused这是mac 没有开启远程登录的权限。原创 2018-11-06 19:22:07 · 2726 阅读 · 0 评论 -
Tengine
Tengine是由淘宝网发起的 Web 服务器项目。它在 Nginx 的基础上,针对大访问量网站的需求,添加了很多高级功能和特性。Tengine的性能和稳定性已经在大型的网站如淘宝网,天猫商城等得到了很好的检验。它的最终目标是打造一个高效、稳定、安全、易用的Web平台。继承Nginx-1.8.1的所有特性,兼容Nginx的配置;在Nginx 1.8之后,所有的的配置以及API都是想通的,可以自...原创 2018-11-05 14:21:28 · 707 阅读 · 1 评论 -
linux03-学习记录
此系列文章是探索大数据道路的记录,有些记录是为了备忘,有些记录是为了学习心得内容,有些是为了给大家提供一个好的学习资料。持续更新中…简书对 markdown 语法的支持不够好。大家也可以到我的私人blog查看该系列文章。。blog.cuteximi.com ,也可以关注【码省理工】公众号与我交流技术。写在前面时刻提醒自己!保持记笔记的习惯,按照统一(md)的格式可以每节课结束记一次...原创 2018-11-04 00:13:28 · 246 阅读 · 0 评论