![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
bigdata
文章平均质量分 79
袁一白
这个作者很懒,什么都没留下…
展开
-
parquet在spark,impala,hive等的兼容性分析
Parquet是一种存储格式,其本身与任何语言、平台都没有关系,也不需要与任何一种数据处理框架绑定。但是一个开源技术的发展,必然需要有合适的生态圈助力才行,Spark便是Parquet的核心助力之一。作为内存型并行计算引擎,Spark被广泛应用在流处理、离线处理等场景,其从1.0.0便开始支持Parquet,方便我们操作数据。Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。在数据挖掘小组,语言是pytho原创 2020-09-04 15:51:51 · 526 阅读 · 0 评论 -
教科书级别的完美回答-感谢大神
问你个问题,看你这scala老手多长时间给出答案?List(Some(3), None).flatMap(e => e)的结果是什么? 为什么?=================今天走在路上,忽然想到上次说的这个问题可以从语言上层的理论来解释:在面向对象的编程中,一切皆对象,类比到函数式编程,一切皆函数,也可以称为一切皆monad,也就是说我们在函数式编程中见到的应该都是monad...原创 2020-03-07 23:50:46 · 444 阅读 · 0 评论 -
旧项目的TEZ优化
最近搞数据挖掘,在前期的ETL部分,是pig来写的,大约有4283+行据说运行非常慢,所以,准备TEZ一下,这里先贴个tez的页面:https://tez.apache.org/#tez化cmd="pighcatalogcmd−Dhive.metastore.uris=thrift://192.168.1.190:9083−pinput={pig_hcatalog_cmd} -Dhive....原创 2019-11-18 13:44:38 · 445 阅读 · 0 评论 -
工作流开源系统--OOZIE之安装spark2
引言使用Hue可以方便的通过界面制定Oozie的工作流,支持Hive、Pig、Spark、Java、Sqoop、MapReduce、Shell等等。Spark?当让可以,但是自带是spark1的,那能不能支持Spark2的呢?接下来本文章就主要讲述如何使用Hue创建Spark1和Spark2的Oozie工作流。安装spark2-lib到oozie环境说明 spark2 : CD...原创 2018-06-26 15:55:51 · 1401 阅读 · 4 评论 -
记一次HDFS容量失误事件
新集群有8台电脑(还在不断迁移集群),在2018年9月11日,发生了115节点的磁盘爆满的问题。通过df -h命令获取容量得到结果为3.7T通过hadoop dfsadmin -report获取容量 可以看到认为是12.56TB数据通过MegaRAID查看/opt/MegaRAID/MegaCli/./MegaCli64 -PDList -aALL | egr...原创 2018-09-13 15:17:59 · 384 阅读 · 0 评论 -
Nifi博客之一:概述贴
NIFI的总体论述简介:2006年NiFi由美国国家安全局(NSA)的Joe Witt创建。2015年7月20日,Apache基金会宣布ApacheNiFi顺利孵化成为Apache的顶级项目之一。Apache NiFi的设计目标是自动化管理系统间的数据流,其基于工作流式的设计理念具有很强的交互性,非常强大、易用。本文简要介绍NiFi的相关特性,以及常见的应用场景,为系统间或者系统内的数据流管理提...原创 2018-11-28 17:20:43 · 635 阅读 · 0 评论 -
记一次Hive的失败事件
现象root用户报错:Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskhue等账号:正常所以排除是:表,hive等问题。排查过程首先,报错看日志核心报错如下:org.xml.sax.SA...原创 2019-01-04 18:05:19 · 961 阅读 · 0 评论 -
spark Thrift JDBC/ODBC Server配置
必要性spark Thrift JDBC/ODBC Server服务能降低Spark的使用难度(对外仅SQL)配置过程首先,正常配置spark编写脚本 start-thriftserver.sh 启动服务(包含动态资源申请)[root@prd-pg-cdh-node-190 spark-2.3.1-bin-hadoop2.6]# cat start-thriftserver.sh #!...原创 2019-01-04 18:31:55 · 2734 阅读 · 0 评论 -
UDF非预期返回null
背景今天写了一个UDF函数,算粉丝互动率的参数def getInteractionProportion(platform_type:String, follower_count:Long,media_count:Long,interaction_sum:Long):Float={1.2f}当有视频数的时候,interaction_sum除以视频数,否者除以粉丝数;当写成上述的时候,仍...原创 2019-01-24 17:16:37 · 1126 阅读 · 0 评论 -
记spark2.3.x的一个bug
背景在做spark重构代码的时候,账号的二期的有些计算,使用了sparkSQL,这个时候,发现要进行多次的left join,考虑效率问题,提出重分区: val price = s""" |select |identify_id,weibo_type,price_info |from dm_account.hogwarts_ac...原创 2019-01-23 09:29:39 · 556 阅读 · 0 评论 -
关于SparkSQL中UDAF的一次设计失误
首先我们先贴一下同事的UDAF函数package com.wby.fans.commonimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.s...原创 2019-03-14 19:51:52 · 415 阅读 · 1 评论 -
一个有意思的spark代码,今天闲的蛋疼了
package com.wby.fans.increimport java.util.Dateimport com.wby.annotation.Workflowimport com.wby.data.common.Common.{platformFilterSQLParms, refreshTable}import com.wby.data.common.{CodeTransform,...原创 2019-03-15 12:42:57 · 277 阅读 · 0 评论 -
Spark2.3.0解决Exception in thread “main“ java.lang.IllegalArgumentException: Illegal pattern component
转载:https://blog.csdn.net/lds_include/article/details/89329139Spark2.3.0解决Exception in thread “main” java.lang.IllegalArgumentException: Illegal pattern component: XXX 报错出错的调用代码此问题出现在调用spark.read.j...转载 2019-09-04 15:30:30 · 2666 阅读 · 0 评论 -
工作流开源系统--OOZIE-test测试文档
之前的工作流是rundeck,这主要是处理过程大多数是使用脚本语言。 新的布局是使用oozie,基本的可以看我之前的文章:oozie 首先,先看一下成果 这里用一个例子来说明oozie的使用,首先上测试图:1 重点聊一下spark集群在oozie上的特殊性这里有2个坑,分别是集群的参数和del先讨论参数问题 从上图可以看出,1和2是运行成功的,3是失败的 我们看一...原创 2018-06-25 20:17:05 · 526 阅读 · 0 评论 -
【转】消息中间件全面对比的内功心法
转自:消息中间件全面对比的内功心法 消息中间件全面对比的内功心法 ——从Kafka与RabbitMQ的对比来看全局 有很多网友留言:公司要做消息中间件选型,该如何选?你觉得哪个比较好?消息选型的确是一个大论题,实则说来话长的事情又如何长话短说。对此笔者专门撰稿一篇内功心法:如何看待消息中间件的选型,不过...转载 2018-06-26 10:25:26 · 198 阅读 · 0 评论 -
彻底删除kafka数据信息
彻底删除Kafka中的topic1、删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录2、Kafka 删除topic的命令是: ./bin/kafka-topics --delete --zookeeper 【zookeeper server】 --topic 【topic name】 如果ka...原创 2018-06-01 19:25:41 · 10322 阅读 · 1 评论 -
工作流开源系统--DRAKE
1工作流开源系统概要以下是各类数据分析的工作流pipeline管道模型的框架和库包,包含特定科学等业务领域行业或者通用领域,结合大数据big data分析的各种开放源码项目。包括下一代测序技术(NGS)打开了数据分析的空间,生物学成为数据密集领域,越来越多的生物数据需要通过复杂的计算工具(集群、云端和网格计算)进行NGS处理和分析。工作流开源系统网址现类Arvadoshttp://arvados....原创 2018-06-22 09:55:46 · 2858 阅读 · 0 评论 -
Phoenix四贴之一:扫盲贴
摘要: Phoenix扫盲贴1 简介IntroductionApache Phoenix is a relational database layer over HBase delivered as a client-embedded JDBC driver targeting low latency queries over HBase data. Apache Phoenix takes yo...原创 2018-05-19 15:49:35 · 1655 阅读 · 0 评论 -
Phoenix四贴之二:二级索引系统
摘要: Phoenix二级索引系统1 二级索引之— —Global Indexing1.1 说明在HBase中,只有一个单一的按照字典序排序的rowKey索引,当使用rowKey来进行数据查询的时候速度较快,但是如果不使用rowKey来查询的话就会使用filter来对全表进行扫描,很大程度上降低了检索性能。而Phoenix提供了二级索引技术来应对这种使用rowKey之外的条件进行检索的场景。Ph...原创 2018-05-19 15:50:33 · 424 阅读 · 0 评论 -
Phoenix四贴之三:hive整合
摘要: 由于公司的hive和hbase整合不好,所以使用Phoenix作为二级索引,但是又不想动原有的hive接口框架,所以:hive访问Phoenix,Phoenix二级索引操作hbase0.前期准备,伪分布式的hbase搭建(这里简单演示一下)Hbase的伪分布式安装部署(使用三个进程来当作集群)下载地址:http://mirror.bit.edu.cn/apache/hbase/1.2.3/...原创 2018-05-19 15:51:45 · 5808 阅读 · 12 评论 -
Phoenix四贴之四:企业真实环境CDH-hbase(0.98)升级为Apache-HBASE(1.2.6)并整合hive2.3
一 概述需求:为了整合Hive-2.x和Phoenix-4.13,所以将habse升级为1.2.6,官网版本 http://mirror.bit.edu.cn/apache/hbase/1.2.6/hbase-1.2.6-bin.tar.gz理由:1 hbase是1.2.6版本的,所以选用4.13.1版本的phoenix,官网:http://apache.fayea.com/phoenix/ 理由...原创 2018-05-23 13:28:11 · 649 阅读 · 0 评论 -
KAFKA源码分析及整理
gitee:https://gitee.com/yuanyihan/yyh-idea-kafka一、Kafka生产者发送消息示例 注意:以下所用kafka版本为0.10.1.0 KafkaProducer是线程安全对象,建议可以将其封装成多线程共享一个实例,效率反而比多实例更高,在深入分析前,先简单看一个生产者生产消息的demo [java] view plain co...原创 2018-05-28 14:42:28 · 7950 阅读 · 0 评论 -
hadoop对于压缩文件的支持及算法优缺点
hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。 压缩格式工具算法文件扩展名多文件可分割性DEFLATE无DEFLATE.deflate不不gzipgzipDEFLATE.g...原创 2018-06-12 09:21:12 · 293 阅读 · 0 评论 -
看书笔记整理-误删HBase数据如何抢救?
数据保护当误删数据发生时候,不管三七二十一,第一要务是进入hbase shell,执行如下命令:如果误删一张表的有多个family里的数据,需要都执行一下:alter 'tt', { NAME => 'f1', KEEP_DELETED_CELLS => TRUE }, { NAME => 'f2', KEEP_DELETED_CELLS => TRUE }设置 KEEP_...原创 2018-06-12 11:47:30 · 217 阅读 · 0 评论 -
HBASE---LSM树——放弃读能力换取写能力,将多次修改放在内存中形成有序树再统一写入磁盘
LSM树(Log-Structured Merge Tree)存储引擎代表数据库:nessDB、leveldb、hbase等核心思想的核心就是放弃部分读能力,换取写入的最大化能力。LSM Tree ,这个概念就是结构化合并树的意思,它的核心思路其实非常简单,就是假定内存足够大,因此不需要每次有数据更新就必须将数据写入到磁盘中,而可以先将最新的数据驻留在磁盘中,等到积累到最后多之后,再使用归并排序的...转载 2018-06-06 20:44:57 · 406 阅读 · 0 评论 -
工作流开源系统--OOZIE
对比Oozie以及Azkaban,个人觉得选择Oozie作为流程引擎的选型比较好,理由如下: 1.Oozie是基于Hadoop系统进行操作,而Azkaban是基于命令行进行操作。使用hadoop提供的第三方包JobClient比直接在底层跑shell命令开发成本小,可能遇到的坑也少(一个是基于平台,一个是基于系统)。 2.Oozie的操作是放在Hadoop中,而Azkaban的运行是服务器运行...原创 2018-06-22 09:02:26 · 567 阅读 · 0 评论 -
Kafka 实践
这里翻译一篇关于 Kafka 实践的文章,内容来自 DataWorks Summit/Hadoop Summit(Hadoop Summit)上一篇分享,PPT 见Apache Kafka Best Pratices,里面讲述了很多关于 Kafka 配置、监控、优化的内容,绝对是在实践中总结出的精华,有很大的借鉴参考意义,本文主要是根据 PPT 的内容进行翻译及适当补充。Kafka 的架构这里就不...转载 2018-06-08 17:44:24 · 1572 阅读 · 0 评论 -
Pig设计模式概要以及与SQL的设计模式的对比
1概要模式概要模式其实就是数据的全貌信息的获取,主要分为3种:1.1数值概要#HSQLSELECT MIN(num),MAX(num),COUNT(num) FROM table GROUP BY groupcol;#Pigb = GROUP a BY groupcol;c = FOREACH b GENERATE group, MIN(a.num), MAX(a.num), COUNT_...原创 2018-05-19 15:24:48 · 205 阅读 · 0 评论