2021年02月_浪尖聊大数据-浪尖

转载京东JDHBase异地多活实践

JDHBase在京东集团作为线上kv存储，承担了大量在线业务，11.11、6.18 均经历了每天万亿级读写访问请求，目前规模达到7000+节点，存储容量达到了90PB。场景涉及商品订单、评...

2021-02-27 23:23:00 318

转载你还在new对象吗？Java8通用Builder了解一下？

作者：cipherwww.ciphermagic.cn/java8-builder.html程序员经常会遇到灵魂拷问：你有对象吗？没有，但我可以 new 一个！public class G...

2021-02-26 17:27:00 119

转载 SQL 优化极简法则，还有谁不会？

来自：CSDN，作者：不剪发的Tony老师链接：https://blog.csdn.net/horses/article/details/105695431文章目录法则一：只返回需要的结果...

2021-02-25 17:40:00 104

转载「数据指标体系」怎么搭建才是“有效”？

郑州星云互联 | 作者腾讯新闻 |来源https://xw.qq.com/cmsid/20200904A0B8YF001搭建指标体系的价值搭建指标体系有什么用？数据分析什么要搭建指标体系...

2021-02-25 17:40:00 330

转载打工人必备：Hive小文件合并与数据压缩

Hive仓库表数据最终是存储在HDFS上，由于Hadoop的特性，对大文件的处理非常高效。而且大文件可以减少文件元数据信息，减轻NameNode的存储压力。但是在数据仓库中，越是上层的表汇...

2021-02-24 09:00:00 562

转载 Spark 在金融领域的应用之日内走势预测

1. 同花顺收费版之走势预测2014年后半年开始，国内 A 股市场可谓是热火朝天啊，路上的人谈的都是股票。小弟虽然就职金融互联网公司，但之前从来没有买过股票，但每天听着别人又赚了几套房几辆...

2021-02-23 17:58:29 492

转载 Spark性能优化指南——高级篇

Spark性能优化指南——基础篇继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调...

2021-02-22 22:07:21 242

转载 17 个在 Linux 运维中定要掌握的实用技巧

来自：网络1、查找当前目录下所有以.tar结尾的文件然后移动到指定目录：find.-name“*.tar”-execmv{}./backup/;注解：find –nam...

2021-02-21 14:55:00 124

转载基于Spark 推荐系统特征工程

分享嘉宾：陈迪豪第四范式架构师编辑整理：刘璐出品平台：第四范式天枢、DataFunTalk导读：特征工程在推荐系统中有着举足轻重的作用，大规模特征工程处理的效率极大的影响了推荐系统线上...

2021-02-21 14:55:00 267

转载 2021年2月程序员工资最新出炉，涨了！这下踏实了！

来源：https://blog.csdn.net/juwikuang/article/details/113729712你拿到年终奖了吗？值此之际，我们也面向程序员群体，进行了新一个月的...

2021-02-20 22:01:00 271

转载日志收集Agent，阴暗潮湿的地底世界

日志agent对于使用日志平台的用户来说，是一个黑盒。对于用户来说，agent有些不好的地方：•agent私底下偷偷摸摸都做了些什么事情呢？（阴暗的）•agent的设计实现其实有一些dir...

2021-02-20 22:01:00 319

转载 Spark性能优化指南——基础篇

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计...

2021-02-19 17:40:00 169

转载 Hbase、Kudu和ClickHouse全视角对比

Hbase、Kudu和ClickHouse横向对比V2.0前言Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据，地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心...

2021-02-18 17:40:31 367

转载 "服务不可用"怎么排查？讲了100遍还是记不住？

下面是线上机器的cpu使用率，可以看到从4月8日开始，随着时间cpu使用率在逐步增高，最终使用率达到100%导致线上服务不可用，后面重启了机器后恢复。1、排查思路简单分析下可能出问题的地方...

2021-02-16 19:00:21 215

转载 Clickhouse的实践之路

导读在数据量日益增长的当下，传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能...

2021-02-16 19:00:21 1123

转载超卖 100 瓶茅台的事故分析

来源 |https://urlify.cn/MVBvmy基于Redis使用分布式锁在当今已经不是什么新鲜事了。本篇文章主要是基于我们实际项目中因为redis分布式锁造成的事故分析及解决方...

2021-02-14 10:26:33 124

转载腾讯基于 Flink SQL 的功能扩展与深度优化实践

整理：戴季国（Flink社区志愿者）校对：苗文婷（Flink 社区志愿者）摘要：本文由腾讯高级工程师杜立分享，主要介绍腾讯实时计算平台针对 Flink SQL 所做的优化，内容包括：...

2021-02-13 08:19:07 460

转载 SQL on Hadoop性能对比－Hive、Spark SQL、Impala

1三种语言、三套工具、三个架构不了解SQL on Hadoop三驾马车－Hive、Spark SQL、Impala吗？听小...

2021-02-13 08:19:07 1204

转载 1.3 万亿条数据查询，如何做到毫秒级响应？

知乎，在古典中文中意为“你知道吗？”，它是中国的 Quora，一个问答网站，其中各种问题由用户社区创建，回答，编辑和组织。作为中国最大的知识共享平台，我们目前拥有 2.2 亿注册用户，30...

2021-02-10 22:19:45 236

转载 Flink 助力美团数仓增量生产

摘要：本文由美团研究员、实时计算负责人鞠大升分享，主要介绍 Flink 助力美团数仓增量生产的应用实践。内容包括：数仓增量生产流式数据集成流式数据处理流式OLAP应用未来规划Tips：...

2021-02-10 22:19:45 170

转载 Redis 的 8 大数据类型，写得非常好！

NoSQL 开发中或多或少都会用到，也是面试必问知识点。最近这几天的面试每一场都问到了。但是感觉回答的并不好，还有很多需要梳理的知识点。官网可查看命令：http://www.redis.c...

2021-02-09 22:39:00 190

转载基于 Flink+Iceberg 构建企业级实时数据湖

Apache Flink 是大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时，会碰撞出什么样的火花呢？本次分...

2021-02-09 22:39:00 389

转载十道海量数据处理面试题

1、海量日志数据，提取出某日访问百度次数最多的那个IP此题，在我之前的一篇文章算法里头有所提到，当时给出的方案是：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存...

2021-02-08 22:31:30 327

转载 Flink实战 - Binlog日志并对接Kafka实战

对于 Flink 数据流的处理，一般都是去直接监控 xxx.log 日志的数据，至于如何实现关系型数据库数据的同步的话网上基本没啥多少可用性的文章，基于项目的需求，经过一段时间的研究终于还...

2021-02-08 22:31:30 733

转载 5种经典的数据分析思维和方法

作者：启方来源：数据分析不是个事儿在数据分析中，数据分析思维是框架式的指引，实际分析问题时还是需要很多“技巧工具”的。就好比中学里你要解一元二次方式，可以用公式法、配方法、直接开平方法、因...

2021-02-06 17:48:18 1712

转载 Flink 在实时金融数据湖的应用

导读：本文由中原银行大数据平台研发工程师白学余分享，主要介绍实时金融数据湖在中原银行的应用。主要内容包括：背景概况实时金融数据湖体系架构场景实践01背景概况首先简单介绍一下中原银行，它位于...

2021-02-06 17:48:18 549

转载协同过滤推荐算法在MapReduce与Spark上实现对比

MapReduce为大数据挖掘提供了有力的支持，但是复杂的挖掘算法往往需要多个MapReduce作业才能完成，多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程，使得基于MapRedu...

2021-02-05 17:40:00 633

转载一篇文章，读懂Netty的高性能架构之道

Netty是一个高性能、异步事件驱动的NIO框架，它提供了对TCP、UDP和文件传输的支持，作为一个异步NIO框架，Netty的所有IO操作都是异步非阻塞的，通过Future-Listen...

2021-02-05 17:40:00 414

转载 Tips｜如何高效入门大数据？

说到大数据，作为技术开发的你一定不陌生，纵观国内大大小小的企业，但凡是赚钱的生意，一定与大数据有关联。京东、淘宝等电商网站利用用户画像做个性化商品推荐；今日头条、抖音利用算法做精细化运营；...

2021-02-04 17:33:36 250

转载用户建模教程：3步搭建一个流失模型

任何一个产品，用户流失都是一种必然现象。用户挽留的第一步就是建立用户流失模型，只有建立一个准确的用户流失模型，才能让后续的工作，如梳理用户流失节点、通过各种渠道对用户进行召回，事半功倍。一...

2021-02-03 11:51:25 615

转载利用 Spark DataSource API 实现Rest数据源

来源：http://www.jianshu.com/p/6441eaa4d064Spark DataSource API 的提出使得各个数据源按规范实现适配，那么就可以高效的利用Spar...

2021-02-02 11:43:00 508

转载浅谈 RESTful API

一、REST的由来全称：REST，全称是Resource Representational State Transfer，即：URL定位资源，用HTTP动词（GET,POST,DELET...

2021-02-02 11:43:00 405 1

转载实时流计算技术已经主宰阿里各业务线，你还不学起来？！

今日一问：你学实时流计算了吗？这几年，随着越来越多的业务对数据的实时性提出了高要求，实时流计算技术变得越来越火。字节、京东、美团这些大厂就用它来处理用户兴趣分析、实时异常检测、在线反欺诈...

2021-02-01 17:43:00 243

大数据星球-浪尖