![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 69
PolarisHuster
java程序员,爱编程爱运动,也喜欢结交朋友
展开
-
大数据及人工智能最佳实践
大数据及人工智能最佳实践原创 2024-03-06 18:14:00 · 494 阅读 · 0 评论 -
Presto高性能引擎在美图的实践
Presto高性能引擎在美图的实践转载 2024-03-05 19:55:46 · 37 阅读 · 0 评论 -
ReplyingKafkaTemplate源码分析
ReplyingKafkaTemplate源码分析原创 2023-06-24 17:57:52 · 340 阅读 · 2 评论 -
spring-kafka之请求响应模式
kafka之请求响应模式原创 2023-06-24 17:35:36 · 986 阅读 · 2 评论 -
为什么说存储和计算分离的架构才是未来?
这篇文章的标题是我们过去几个月经常和客户探讨的一个问题,也是很多大公司正在思考的问题,在这里分享一下我们的观点和经验。二十年前,大规模存储一般使用的是专有硬件设备方案(NAS),通过特殊的高性能通讯硬件给其他应用提供访问接入。这种方案不太容易扩展,而且价格昂贵,无法满足互联网的高速下的超大规模数据存储需求。让我们回到 2001 年,Google 的 GFS 开创了先河,第一次用普通的 x86 机器和普通硬盘搭建了大规模存储。当时的 HDD 的吞吐量大概在 50MB/s,通过接入多个硬盘的方式可以提高转载 2022-03-17 11:01:20 · 417 阅读 · 0 评论 -
2021年的4个开源对象存储平台
当处理大量非结构化数据时,我们需要一个存储它的地方。我们选择存储数据的方式有很多,但我们今天将重点关注的是对象存储或基于对象的存储。当处理大量数据时,这是最佳选择,尤其是因为它并不昂贵,并且使管理数据变得更加容易。如果您不熟悉它,对象存储是一种数据存储体系结构,它使您可以在可伸缩的对象结构中存储大量非结构化数据。它使存储的数据作为具有元数据和唯一标识符的对象,从而更易于访问该数据。现在,有许多平台提供对象存储功能。因此,在本文中,我们将向您介绍四个有用的开放源代码对象存储平台,这些平台包含健壮的功能转载 2022-03-16 17:11:40 · 3758 阅读 · 0 评论 -
谈谈tdengine的超级表设计
tdengine是国内涛思数据开源的一款高性能时序数据库,尤其针对物联网应用领域,大部分采用C++语言开发,所以不存在类似cassandra的GC问题,涛思官网对自家产品与其他几款时序数据库做了比较详尽的性能对比,tdengine在很多方面性能都远超其他竞品,tdengine之所以快有开发语言问题,更多的是其在多方面的优化,比如一设备一表的设计,这种设计不管是读取还是插入都会有不同程度的性能提升,所以性能对比多少有那么一点点取巧的感觉。 好了,进入今天的正题,说说tdeng...原创 2021-09-26 07:59:30 · 4787 阅读 · 1 评论 -
spark streaming读取kafka内容并进行反序列化
环境:scala:2.12spark:3.1.2本文介绍spark从kafka获取数据,并进行反序列化import com.fasterxml.jackson.databind.ObjectMapperimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.functions._import org.apache.spark.sql.streaming.Trigger.ProcessingT原创 2021-09-10 16:41:41 · 467 阅读 · 0 评论 -
IDEA创建spark maven项目并连接远程spark集群
环境:scala:2.12.10spark:3.0.31、创建scala maven项目,如下图所示:2、不同版本scala编译参数可能略有不同,笔者使用的scala版本是2.12.10,scala-archetype-simple插件生成的pom文件<plugin> <groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</artifactId&g原创 2021-08-30 15:20:48 · 2430 阅读 · 2 评论 -
iceberg支持的数据类型
iceberg 0.11.1支持的数据类型如下,这些东西在iceberg官网都有,只是有时候官网打不开,所以记录下:Type Description Notes boolean 布尔型,True or false int 32位有符号整形 Can promote tolong long 64位有符号整形 float 单精度浮点型 Can promote todouble double 双精度浮点型 ..原创 2021-08-19 10:24:49 · 2046 阅读 · 0 评论 -
4个开源对象存储的解决方案
发现最流行的工具以免费实现对象存储系统> Photo by Joshua Coleman on Unsplash.如福布斯所指出的,今天组织中的超过80%的数据是非结构化的。传统上,公司已经忽略了这种类型的数据,因为他们面临的挑战分析并产生有意义的见解。然而,由于正在发明其他类型的存储系统,例如基于块,文件和基于对象的存储系统,景观正在迅速变化。在这三个中,对象存储似乎最有希望,这是通过亚马逊,谷歌和IBM等事实证明了基于对象的数据存储库的企业解决方案。虽然此类商业选项肯定提供许多转载 2021-07-23 08:00:14 · 9061 阅读 · 0 评论 -
基于Flink+Iceberg构建企业级实时数据湖
Apache Flink是大数据领域非常流行的流批统一计算引擎,数据湖是顺应云时代发展潮流的新型技术架构。那么当Apache Flink遇见数据湖时,会碰撞出什么样的火花呢?本次分享主要包括以下核心内容:数据湖的相关背景介绍; 经典业务场景介绍。 为什么选择Apache Iceberg。 如何通过flink+iceberg实现流式入湖。 社区未来规划工作等。数据湖的相关背景介绍数据湖是个什么概念呢?一般来说我们把一家企业产生的数据都维护在一个平台内,这个平台我们就称之为“数据湖”。看下..转载 2021-07-19 07:53:35 · 542 阅读 · 0 评论 -
新浪微博的实时数据湖建设实践
一 摘要Apache Flink是目前大数据领域最流行的流批一体化计算引擎,而数据湖技术也是互联网时代的产物,以Iceberg、Hudi和Delta为代表的数据湖技术应运而生。Iceberg目前已经提供对Apache Flink 1.11.x的集成支持,Flink可以通过DataStream API/Table API将数据写入Iceberg。二 背景及痛点新浪和微博有强大的用户群体,目前积累的数据已经达到几百PB。微博的技术通常会采集应用APP的埋点数据以及应用服务日志之类的数据,这些数据通过转载 2021-07-19 07:31:58 · 415 阅读 · 0 评论 -
HDFS简介
HDFS简介转载 2017-12-17 17:56:57 · 471 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解转载 2017-12-17 17:10:27 · 374 阅读 · 0 评论 -
Hadoop入门之命令参考
Hadoop入门之命令参考转载 2017-12-12 11:19:26 · 262 阅读 · 0 评论 -
Hadoop入门之HDFS操作
Hadoop入门之HDFS操作转载 2017-12-12 11:13:12 · 347 阅读 · 0 评论 -
Hadoop入门之环境安装设置
Hadoop入门之环境安装设置转载 2017-12-12 10:44:03 · 284 阅读 · 0 评论 -
Hadoop入门之HDFS
Hadoop入门之HDFS转载 2017-12-12 10:42:36 · 265 阅读 · 0 评论 -
hadoop运行提示JAVA_HOME is not set and could not be found
hadoop运行提示JAVA_HOME is not set and could not be found转载 2017-12-12 09:57:56 · 1937 阅读 · 0 评论 -
对数据湖概念及其应用场景若干问题的思考
在大数据平台后可以看到有两个衍生出来的概念词相当的火热,一个是数据中台,还有一个就是数据湖,今天准备谈下对这方面的一些思考。从数据湖的基本概念说起首先看下维基百科上的定义如下:数据湖(Data Lake)是一个以原始格式存储数据的存储系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。而在百度百科.转载 2021-03-28 11:52:12 · 762 阅读 · 0 评论 -
你不理解的“OLAP”,从这4点一看就可以明白
但凡从事数据相关工作的人,都多多少少听说过“OLAP”。但大部分还是处于懵懵懂懂的状态,只知道是一种数据分析技术的统称。那么,OLAP到底是什么?它和BI有什么关系?今天小麦就和大家一起一探究竟。ONE什么OLAP?OLAP的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。当今的数据处理大致可以分成两大类:联机事务处理OLTP(On-Line..转载 2021-03-28 11:51:18 · 824 阅读 · 0 评论 -
对数据湖概念及其应用场景若干问题的思考
在大数据平台后可以看到有两个衍生出来的概念词相当的火热,一个是数据中台,还有一个就是数据湖,今天准备谈下对这方面的一些思考。从数据湖的基本概念说起首先看下维基百科上的定义如下:数据湖(Data Lake)是一个以原始格式存储数据的存储系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。而在百度百科.转载 2021-03-25 08:17:26 · 457 阅读 · 0 评论 -
kettle实现从一个cassandra同步到另一个cassandra
Cassandra版本为3.1.18,pentaho kettle为9.1版本1、拖拽cassandra input、cassandra output控件到工作区,如下图所示:2、双击cassandra input控件对其进行配置,如下图所示:入托cassandra设置了登录认证信息的话,需要填写Username与Password信息3、双击cassandra output控件对其进行配置,如下图所示:Schema options页非必填项,如果cassandra o原创 2021-03-18 08:42:06 · 511 阅读 · 0 评论 -
spring-data-cassandra 实体类中字段不与数据库表映射
在使用spring-data-cassandra实体模型时有时为了减少一些类同时又可以传递一些非数据库字段的信息,这时我们可以使用@Transient注解来实现,但需要注意的使用的@Transient注解并不是javax.persistence包下的@Transient注解,而是org.springframework.data.annotation包下的@Transient注解,该注解是spring-data-commons下的注解,如下所示:/** * 该数据是否是整形 */@Transien原创 2021-01-11 11:02:32 · 588 阅读 · 0 评论 -
minikube运行sparkPi
spark-on-k8s是spark执行任务的一种方式,当然还有spark-on-yarn等,本文讲述下spark-on-k8s的入门级操作流程,使用的是minikube来搭建单机版的k8s环境,好了废话不多说了,直接如主题:1、安装minikube环境(本文用到的是1.15.1版本)进入https://github.com/kubernetes/minikube/releases/tag/v1.15.1页面下载系统对应的minikube版本,博主用的是ubuntu系统,所以下载minikube原创 2020-11-28 13:54:58 · 426 阅读 · 0 评论 -
kettle将postgresql数据拷贝到其他postgresql时报“字段 “id“ 的类型为 uuid, 但表达式的类型为 character varying”
环境:postgresql-12,pentaho kettle为9.1版本使用kettle将一个postgresql数据拷贝到另外一个postgresql时报“字段 "id" 的类型为 uuid, 但表达式的类型为 character varying”异常,源postgresql中id字段是uuid类型,但是经过kettle后却变成了string类型,处理这个问题相对pg导入cassandra要简单些,直接设置目的postgresql的连接属性即可:双击“表输出”节点,弹出如下页面:原创 2020-10-24 08:55:47 · 2876 阅读 · 1 评论 -
kettle将postgresql数据导入cassandra提示InvalidQueryException: UUID should be 16 or 0 bytes (36)
本文使用的postgresql-12,cassandra 3.x,pentaho kettle为9.1版本,转换图如下图所示:最初的转换只有pg的表输入节点以及Cassandra output输出节点组成,但是postgresql表中的uuid字段到了kettle时却成了字符串类型,导致kettle将postgresql数据导入cassandra提示错误: 字段 "id" 的类型为 uuid, 但表达式的类型为 character varying,com.datastax.driver.core原创 2020-10-24 08:43:54 · 907 阅读 · 1 评论 -
80篇数据库&大数据精华内容
八天小长假,一个难得的查漏补缺、学习充电的好时机!平时因为忙碌而错过的技术干货,不如重拾一次酣畅淋漓;那些读过后为之鼓掌的优质好文也不妨温故而知新~为了方便大家查阅,dbaplus社群对近一年发布过的干货好文进行汇总打包,诚意奉上。干货合集第一弹,我们分别甄选了数据库和大数据领域共80篇精华内容,内容涵盖MySQL、去O、分库分表、SQL优化、数据库选型、数据仓库、Elasticsearch、Kafka……戳标题即可阅读原文↓数据库系列MySQL 工行分...转载 2020-10-02 10:00:04 · 1603 阅读 · 0 评论 -
org.apache.flink.table.api.TableException: A raw type backed by type information has no serializable
DataStream<Order> result = tableEnv.toAppendStream(table, Order.class);出现这个问题是因为Order类是嵌套内部类,由于不是public类型而导致出现了下面的异常:org.apache.flink.table.api.TableException: A raw type backed by type information has no serializable string representation. It n.原创 2020-10-01 09:41:12 · 2443 阅读 · 0 评论