自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(1975)
  • 收藏
  • 关注

转载 危险!VS Code 杀死 IDEA?!

来源:https://www.jdon.com/55835IDEA vs VS Code的故事是一个低端颠覆高端的故事,VsCode几乎吸引了所有年轻和时髦的观众。同时,JetBrains似乎仍能保持生存,这主要归功于辛勤的工作和运气。考虑到VS Code迭代开发的速度(很大程度上要归功于JS + Web渲染器的生产力),我认为VS Code将对JetBrains IDE...

2022-06-03 08:43:50 219

转载 Hive参数与性能企业级调优(建议收藏)

Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。Hive性能调优的方式为什么都说性能优化这项工作是比较难的,因为一项技术的优化,...

2022-06-03 08:43:50 535

转载 自从用了 OkHttp,别的都完全不想用了!

Java封装OkHttp3工具类,适用于Java后端开发者。说实在话,用过挺多网络请求工具,有过java原生的,HttpClient3和4,但是个人感觉用了OkHttp3之后,之前的那些完全不想再用了。怎么说呢,代码轻便,使用起来很很很灵活,响应快,比起HttpClient好用许多。当然,这些是我个人观点,不喜勿喷。准备工作Maven项目在pom文件中引入jar包<...

2022-05-31 08:00:19 212

转载 为什么不建议使用实数作为 HashMap 的 key?

1.起因 让我关注到这一点的起因是一道题,是这么描述的:Given n points on a 2D plane, find the maximum number of points that lie on the same straight line.大意就是给我一些点的X,Y坐标,找到过这些点最多的直线,输出这条线上的点数量于是我就敲出了以下的代码:importja...

2022-05-26 08:17:07 235

转载 编写 if 时尽量不要带 else

来源:翻译自:Nicklas Millard的文章《Better Software Without If-Else》注:本文并不肯定或者否定哪一种写法,仅仅为大家提供一些其他的编码思路或者一些值得借鉴的点子,希望大家能在公众号的每一篇文章中都能有所收获,同时欢迎探讨!设计更好的软件,替换If-Else的5种方法。入门到高级示例让我直接说这句话:If-Else通常是一个糟糕...

2022-05-25 08:00:41 228

转载 几种常见的 Kafka 集群监控工具

本文选自电子工业出版社的新书《kafka进阶》,推荐一下。一个功能健全的kafka集群可以处理相当大的数据量,由于消息系统是很多大型应用的基石,因此broker集群在性能上的缺陷,都会引起整个应用栈的各种问题。Kafka的度量指标主要有以下三类:1.Kafka服务器(Kafka)指标2.生产者指标3.消费者指标另外,由于Kafka的状态靠Zookeeper来维护,对于Zo...

2022-05-25 08:00:41 694

转载 7000字,详解仓湖一体架构!

本文转载自公众号:数据学堂全文共7110个字,建议阅读15分钟在了解湖仓一体化之前,我们先来看一则有关数据仓库的有趣故事吧~沃尔玛拥有世界上最大的数据仓库系统,它利用数据挖掘方法对交易数据进行分析后发现"跟尿布一起购买最多的商品竟是啤酒!后来经过大量实际调查和分析,发现在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒...

2022-05-24 08:00:06 810

转载 快速提升性能的SQL语句,建议收藏

来源:cnblogs.com/SimpleWu/p/9929043.html本文会提到 52 条 SQL 语句性能优化策略。1、对查询进行优化,应尽量避免全表扫描,首先应考虑在 WHERE 及 ORDER BY 涉及的列上建立索引。2、应尽量避免在WHERE子句中对字段进行NULL值判断,创建表时 NULL 是默认值,但大多数时候应该使用 NOT NULL,或者使...

2022-05-24 08:00:06 562 1

转载 高级回顾|1.8万字详解实时数仓建设方案

一、实时数仓建设背景1. 实时需求日趋迫切目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高的场景,对于实效性要求很高的场景还是无法优雅的支撑。因此实时使用数据的问题必须得到有效解决。2. 实时...

2022-05-21 10:29:05 621

转载 如何保障数仓数据质量?(建议收藏)

导读文|傅宇康有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理、科学地运营店铺,同时也直接提供分析决策方法供商家使用。并且,每天在跑的底层任务和涉及的数据表已经达到千级别。面对如此庞大的数据体系,作为测试如何制定质量保障策略呢?这篇文章将从:1.有赞数据链路 、2.数据层测试、 3.应用层测试、...

2022-05-20 08:48:16 892

转载 别再造轮子了,推荐使用 Google Guava 开源工具类库,真心强大!

目录Google Guava 概述不可变集合与对象Guava 新集合类型JDK 集合辅助工具类JDK 基本类型辅助工具类JDK 字符串辅助工具类Stopwatch 秒表Google Guava 概述1、Guava 是一组来自 Google 的核心 Java 库,包括新的集合类型(如 multimap 和 multiset)、不可变集合、图形库以及用于并发、I/O、散列、缓...

2022-05-18 23:48:48 439

转载 赵宏田:用户画像场景与技术实现

导读:今天和大家分享的主题是用户画像的场景与技术实现方案。主要分三大部分:用户画像常见应用场景画像产品功能技术实现方案01常见应用场景1.画像常见的应用场景不同行业业务属性不同,能采集到的数据源也不同,对画像的应用场景有不同的需求,下面梳理互联网 TOC、电商和安防等行业的画像应用场景,提供画像应用思路。常见的360全息画像,就是给一个人打完全部标签之后,输入ID可以返...

2022-05-17 08:30:49 545

转载 5大步骤+10个案例,堪称SQL优化万能公式

一、前言在应用开发的早期,数据量少,开发人员开发功能时更重视功能上的实现,随着生产数据的增长,很多SQL语句开始暴露出性能问题,对生产的影响也越来越大,有时可能这些有问题的SQL就是整个系统性能的瓶颈。二、SQL优化一般步骤1、通过慢查日志等定位那些执行效率较低的SQL语句2、explain 分析SQL的执行计划需要重点关注type、rows、filtered、extra...

2022-05-17 08:30:49 99

转载 clickhouse 亿级数据性能测试

最近由于项目需求使用到了 clickhouse 做分析数据库,于是用测试环境做了一个单表 6 亿数据量的性能测试,记录一下测试结果,有做超大数据量分析技术选型需求的朋友可以参考下。服务器信息CPU:Intel Xeon Gold 6240 @ 8x 2.594GHz内存:32G系统:CentOS 7.6Linux内核版本:3.10.0磁盘类型:机械硬盘文件系统:ext4C...

2022-05-16 08:30:00 592 1

转载 为什么不建议在 MySQL 中使用 UTF-8?

来源:https://blog.csdn.net/qq_39390545/article/details/106946166记得去年我在往MySQL存入emoji表情????????时,一直出错,无法导入。后来找到办法 -- 通过把 utf8 改成 utf8mb4 就可以了,并没有深究。一年后,我看到一篇文章讲到emoji文字占4个字节,通常要用utf-8去接收才行,其他编码可能会出...

2022-05-16 08:30:00 245

转载 竟然连IDEA注释模板都不会配置,我服~

‍来源:网络‍‍# 类注释打开 IDEA 的 Settings,点击 Editor-->File and Code Templates,点击右边 File 选项卡下面的 Class,在其中添加图中红框内的内容:/** * @author jitwxs * @date ${YEAR}年${MONTH}月${DAY}日 ${TIME} */在我提供的示例模板中,...

2022-05-15 09:20:00 248

转载 一口气说出 6 种实现延时消息的方案

延时消息(定时消息)指的在分布式异步消息场景下,生产端发送一条消息,希望在指定延时或者指定时间点被消费端消费到,而不是立刻被消费。延时消息适用的业务场景非常的广泛,在分布式系统环境下,延时消息的功能一般会在下沉到中间件层,通常是 MQ 中内置这个功能或者内聚成一个公共基础服务。本文旨在探讨常见延时消息的实现方案以及方案设计的优缺点。实现方案基于外部存储实现的方案这里讨论的...

2022-05-13 21:58:21 165

转载 解决 IDEA 占用大量 CPU 导致的卡顿问题!

昨晚有一次敲完代码运行完程序后,idea非常卡顿,连输入代码都不能进行,因为有点晚并且累了,所有就关了电脑,今天早上再次打开idea,还是一样卡顿。因为idea的试用期明天就到期了,所有就先破解了idea,破解完之后,还是非常流畅的,但是一运行程序就拉胯了,就先百度看一下解决方案,以下几个解决方案试了,基本问题还是没有解决,就在群里问了几个大佬,方案不是重装系统就是换电脑...

2022-05-10 09:00:00 1326

转载 湖仓一体2.0:终局之选!

全文导读下图是一张非常经典的数据分析技术演进图,从中可一窥整体发展历程。本文将按时间顺序盘点下各阶段数据产品及技术特点,并预测下未来发展方向。Tips:文末有干货文章热点集锦哦1. 简单可用阶段:数据库(DataBase)早在1980年代初中期,是没有专门面向数据分析场景的产品。当时还是以面向事务交易场景为主,数据分析仅作为附带提供的场景。主要是面对管理层提供固定报表,满...

2022-05-10 09:00:00 437

转载 聊聊 缓存之王 Caffeine Cache

前面刚说到Guava Cache,他的优点是封装了get,put操作;提供线程安全的缓存操作;提供过期策略;提供回收策略;缓存监控。当缓存的数据超过最大值时,使用LRU算法替换。这一篇我们将要谈到一个新的本地缓存框架:Caffeine Cache。它也是站在巨人的肩膀上-Guava Cache,借着他的思想优化了算法发展而来。本篇博文主要介绍Caffine Cache 的...

2022-05-09 09:20:46 1769

转载 腾讯二面:引入RabbitMQ后,你如何保证全链路数据100%不丢失 ?

我们都知道,消息从生产端到消费端消费要经过3个步骤:生产端发送消息到RabbitMQ;RabbitMQ发送消息到消费端;消费端消费这条消息;这3个步骤中的每一步都有可能导致消息丢失,消息丢失不可怕,可怕的是丢失了我们还不知道,所以要有一些措施来保证系统的可靠性。这里的可靠并不是一定就100%不丢失了,磁盘损坏,机房爆炸等等都能导致数据丢失,当然这种都是极小概率发生,能做到...

2022-05-09 09:20:46 94

转载 ZooKeeper在HBase集群中的作用

ZooKeeper作为分布式协调组件,在大数据领域的其他分布式组件中往往扮演着重要的辅助角色,因此我们就算不单独去研究ZooKeeper,也短不了要接触它。本文就以最典型的HBase为例,简要介绍ZooKeeper为HBase提供了哪些功能。下图示出一个完整HBase集群的架构,其中包含ZK节点。HMaster、RegionServer容错当HBase集群启动成功后,会在...

2022-05-06 09:02:34 508

转载 Redis和Mysql如何保持数据一致性

在高并发的场景下,大量的请求直接访问Mysql很容易造成性能问题所以,我们都会用Redis来做数据的缓存,削减对数据库的请求但是,Mysql和Redis是两种不同的数据库,如何保证不同数据库之间数据的一致性就非常关键了1.导致数据不一致的原因在高并发的业务场景下,数据库大多数情况都是用户并发访问最薄弱的环节。所以,就需要使用redis做一个缓冲操作,让请求先访问到redi...

2022-05-06 09:02:34 236

转载 Fastjson 2 来了,性能继续提升,还能再战十年

FASTJSON 2.0是FASTJSON项目的重要升级,目标是为下一个十年提供一个高性能的JSON库,同一套API支持JSON/JSONB两种协议,JSONPath是一等公民,支持全量解析和部分解析,支持Java服务端、客户端Android、大数据场景。FASJTONS2代码 https://github.com/alibaba/fastjson2/releases/t...

2022-05-05 09:00:00 764

转载 详解 Flink 容器化环境下的 OOM Killed

在生产环境中,Flink 通常会部署在 YARN 或 k8s 等资源管理系统之上,进程会以容器化(YARN 容器或 docker 等容器)的方式运行,其资源会受到资源管理系统的严格限制。另一方面,Flink 运行在 JVM 之上,而 JVM 与容器化环境并不是特别适配,尤其 JVM 复杂且可控性较弱的内存模型,容易导致进程因使用资源超标而被 kill 掉,造成 Flink...

2022-05-05 09:00:00 277

转载 HiveSQL中级进阶常用技巧

今天为你介绍数据分析、数仓开发最常用的数据处理工具 Hive 的一些使用技巧。这些技巧我们在工作中使用得比较频繁,如果运用得当,将为我们省去不少时间精力。那么首先,我们先来了解下 Hive。Hive 是 Facebook 开源的一款基于 Hadoop 的数据仓库工具,它能完美支持 SQL 查询功能,将 SQL 查询转变为 MapReduce 任务执行。这使得大数据统计得以...

2022-05-04 09:27:00 560

转载 利用多线程批量拆分 List 导入数据库,效率杠杠的!

一、前言前两天做了一个导入的功能,导入开始的时候非常慢,导入2w条数据要1分多钟,后来一点一点的优化,从直接把list怼进Mysql中,到分配把list导入Mysql中,到多线程把list导入Mysql中。时间是一点一点的变少了。非常的爽,最后变成了10s以内。下面就展示一下过程。二、直接把list怼进Mysql使用mybatis的批量导入操作:@Transactiona...

2022-05-04 09:27:00 519

转载 为什么不建议用Executors创建线程池???

来源 |www.cnblogs.com/zjfjava/p/11227456.html01、通过Executors创建线程池的弊端02、通过ThreadPoolExecutor创建线程池03、ThreadPoolExecutor参数解释04、corePoolSize & maximumPoolSize05、keepAliveTime & unit06、等...

2022-05-01 09:36:29 1491 1

转载 大数据权限管理框架:Apache Sentry和Ranger

前沿本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。Apache SentrySentry是由Cloudera公司内部开发而来的,初衷是为了让用户能够细粒度的控制Hadoop系统中的数据(这里主要指HDFS,Hive的数据)。所以Sentry对HDFS,Hive以及同样由Cloudera开发的Impala有着很好的支持性。Apache...

2022-05-01 09:36:29 544

转载 Flink 在众安保险金融业务的应用

摘要:本文整理自众安保险大数据平台开发高级专家郭育波在 Flink Forward Asia 2021 行业实践专场的演讲。主要内容包括:整体概况智能营销应用实时特征应用反欺诈应用后期规划Tips:点击「阅读原文」查看原文视频 & 演讲PDF~一、 整体概况上图是我们的实时计算整体架构图,最下层是数据源层,包括了来自于应用系统的业务数据、应用系统的消息数据、用户...

2022-04-28 08:42:38 323

转载 HBase 读写优化

HBase 读优化HBase客户端优化和大多数系统一样,客户端作为业务读写的入口,姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法,这里一般需要关注四个问题:1. scan缓存是否设置合理?优化原理:在解释这个问题之前,首先需要解释什么是scan缓存,通常来讲一次scan会返回大量数据,因此客户端发起一次scan请求,实际并不会一次就将所有数据加载...

2022-04-28 08:42:38 191

转载 FastDFS 海量小文件存储解决之道

作者:vivo互联网服务器团队-Zhou Changqing一、FastDFS原理介绍FastDFS是一个C语言实现的开源轻量级分布式文件系统。支持 Linux、FreeBSD、AID 等Unix系统,解决了大容量的文件存储和高并发访问问题,文件存取实现了负载均衡,适合存储 4KB~500MB 之间的小文件,特别适合以文件为载体的在线服务,如图片、视频、文档等等。二、F...

2022-04-27 08:57:04 619

转载 Java 开发常用的 Linux 命令知识积累

阅读本文大概需要 13分钟。来自:网络,侵删写在前面虽然平时大部分工作都是和Java相关的开发, 但是每天都会接触Linux系统, 尤其是使用了Mac之后, 每天都是工作在黑色背景的命令行环境中. 自己记忆力不好, 很多有用的Linux命令不能很好的记忆, 现在逐渐总结一下, 以便后续查看.基本操作Linux关机,重启#关机shutdown-hnow#重启...

2022-04-27 08:57:04 176

转载 Spark SQL 字段血缘实践

作者:vivo互联网服务器团队-Hao Guangshi一、背景字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢?有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。Spark SQL 相对于 Hive 来说通常情况下效率会比较高,对于运行时间、资源的使用上面等都会有较大的收益。平台计划将...

2022-04-25 09:04:36 616

转载 Java8 stream 排序以及自定义比较器,很实用!

来自:https://blog.csdn.net/qq_31635851在本页中,我们将提供 java 8 Stream sorted()排序的示例。我们可以按照自然顺序和比较器提供的顺序对流进行排序。在Java8中,可以使用lambda表达式实例化比较器(Comparator)。我们还可以颠倒自然顺序和比较器(Comparator)提供的顺序。自然排序使用Compara...

2022-04-25 09:04:36 1686

转载 Kafka 怎么顺序消费?面试必备!

版权声明:本文为CSDN博主「方片龙」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/qq_38245668/article/details/105900011# 前言本文针对解决Kafka不同Topic之间存在一定的数据关联时的顺序消费问题。如存在Topic-insert和Topic...

2022-04-24 08:19:21 1536

转载 推荐几种 JVM 调优的场景!

假定你已经了解了运行时的数据区域和常用的垃圾回收算法,也了解了Hotspot支持的垃圾回收器。一、cpu占用过高cpu占用过高要分情况讨论,是不是业务上在搞活动,突然有大批的流量进来,而且活动结束后cpu占用率就下降了,如果是这种情况其实可以不用太关心,因为请求越多,需要处理的线程数越多,这是正常的现象。话说回来,如果你的服务器配置本身就差,cpu也只有一个核心,这种情况...

2022-04-24 08:19:21 140

转载 ES+Redis+MySQL,这个高可用架构设计太顶了!

文章来源:【公众号:同程艺龙技术中心】目录背景ES 高可用方案会员 Redis 缓存方案高可用会员主库方案异常会员关系治理展望:更精细化的流控和降级策略‍背景会员系统是一种基础系统,跟公司所有业务线的下单主流程密切相关。如果会员系统出故障,会导致用户无法下单,影响范围是全公司所有业务线。所以,会员系统必须保证高性能、高可用,提供稳定、高效的基础服务。随着同程和艺龙两家公司...

2022-04-23 10:00:12 241

转载 经典Hbase面试7题(附答案)

HbaseHbase是怎么写数据的?HDFS和HBase各自使用场景Hbase的存储结构热点现象(数据倾斜)怎么产生的,以及解决方法有哪些HBase的 rowkey 设计原则HBase的列簇设计HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别1. Hbase是怎么写数据的?Client写入 -> 存入MemStore,...

2022-04-23 10:00:12 435

转载 事件、故障排查处理思路,你值得试试

在讲解事件、故障处理思路前,先讲一个故障场景(以呼叫中心系统作为一例子):业务人员反映呼叫中心系统运行缓慢,部分电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错、查交易量还有没有……时间不知不觉地在敲键盘、敲键盘、敲键盘中过去,但是原因还未定位。经理过来了解情况:“系统恢复了吗?”、“...

2022-04-21 09:16:58 269

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除