跋跋寒的博客

热爱大数据,热爱机器学习

排序:
默认
按更新时间
按访问量

如何从根源上解决 HDFS 小文件问题

原文地址:https://www.iteblog.com/archives/2320.html 我们知道,HDFS 被设计成存储大规模的数据集,我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据(比如文件由哪些块组成、这些块分别存储在哪些节点上)全部都是由 Nam...

2018-10-16 10:43:28

阅读数:173

评论数:0

基于Kafka和ElasticSearch,LinkedIn如何构建实时日志分析系统?

今天,和跟大家分享我们在用ElasticSearch和Kafka做日志分析的时候遇到的问题,系统怎么样一步一步演变成现在这个版本。你如果想拿ElasticSearch和Kafka来做日志分析的话,会有一些启发。全文主要包括以下几个Topic:   日志分析系统的基本需求; LinkedIn的...

2018-09-19 17:16:11

阅读数:2248

评论数:1

互联网大数据面试题集锦

原文地址:http://hbase.group/article/89 以下面试题都是群里小伙伴提供的,现场真题(包含校招题)1.网易大数据面试题 说说项目 Spark哪部分用得好,如何调优 Java哪部分了解比较好 聊聊并发,并发实现方法,volatile关键字说说 HashMap的底...

2018-09-17 10:04:57

阅读数:2534

评论数:0

HBase的Region定位为什么只需一个META表

Hbase就不介绍了,直入正题。 为了让客户端找到包含特定主键的region,Hbase0.96之前提供了两张特殊的目录表-ROOT-和.META表,一下简称root和meta。 root表用来查询所有meta表中热region的位置。meta表则是用来查找所有table的region的位...

2018-09-14 13:47:59

阅读数:2607

评论数:0

美图个性化推荐的实践与探索

互 联网技术将我们带入了信息爆炸的时代,面对海量的信息,一方面用户难以迅速发现自己感兴趣的信息,另一方面长尾信息得不到曝光。为了解决这些问题,个性化推荐系统应运而生。美图拥有海量用户的同时积累了海量图片与视频,通过推荐系统有效建立了用户与内容的连接,大幅度提升产品的用户体验。 在第七期美图技术...

2018-09-13 09:46:03

阅读数:2689

评论数:0

Flink 原理与实现:内存管理

原文地址:https://yq.aliyun.com/articles/57815?spm=a2c4e.11153940.blogrightarea64820.29.71e5167cM5y5cc 摘要: 如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包...

2018-09-07 11:35:13

阅读数:3098

评论数:0

帮你解决垃圾邮件,这家公司还想让你边看邮件边挣钱!

一个解决垃圾邮件的好的思路! 原文地址:https://blog.csdn.net/kXYOnA63Ag9zqtXx0/article/details/82112596 每天上班,第一时间打开邮箱页面,有多少个小伙伴是跟我一样痛苦的?     好,先不要说 Gmail 无法上,就算小...

2018-09-05 23:43:05

阅读数:3165

评论数:1

从将机器学习模型转化成真正产品和服务中学到的经验教训

人工智能依然处于它的幼年时期。今天,只有15%的企业在使用机器学习,但是有30%的企业已经在它们未来的发展路线图里包括了机器学习。像Intel的CEO这样的公众人物宣称,每一个企业都应该有一个机器学习的战略,否则就会有落后的风险。那么机器学习进入你的组织机构就仅仅只是个时间问题。当然,它目前还没有...

2018-09-02 10:09:16

阅读数:3428

评论数:1

Hbase集群间实现数据相互同步

本次测试机器master2 、node1为第一个集群,node2、node3第二个集群,版本均为1.2.6 在第一个集群的每个节点下添加如下配置: <property> <name>hbase.repli...

2018-08-30 09:29:24

阅读数:3605

评论数:0

Hive性能优化(全面)

原文地址:https://mp.weixin.qq.com/s/sVtfUFwoAbAyUq93W2M0wA 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即...

2018-08-27 14:32:55

阅读数:3823

评论数:0

Java GC 及HBase RegionServer GC调优

原文地址:https://blog.csdn.net/wwwxxdddx/article/details/50981089 1背景 1.1问题描述 HBase RegionServer由于GC等原因Stop World超过40s,RS在ZK上创建的临时节点被删除,造成Master认为RS已经...

2018-08-24 13:47:02

阅读数:2695

评论数:0

SparkSQL – 从0到1认识Catalyst

原文地址:http://hbasefly.com/2017/03/01/sparksql-catalyst/ 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经...

2018-08-23 21:13:59

阅读数:3809

评论数:0

HBase最佳实践-CMS GC调优

原文地址:http://hbasefly.com/2016/08/09/hbase-cms-gc/ HBase发展到当下,对其进行的各种优化从未停止,而GC优化更是其中的重中之重。从0.94版本提出MemStoreLAB策略,Memstore Chuck Pool策略对写缓存Memstore进行...

2018-08-23 19:53:16

阅读数:3794

评论数:0

HBase GC的前生今世(二)

原文地址:http://hbasefly.com/2016/05/29/hbase-gc-2/ 最原始的HBase CMS GC相当严重,经常会因为碎片过多导致Promotion Failure,严重影响业务的读写请求。幸运的是,HBase并没有止步不前,很多优化方案相继被提出并贡献给社区,本文...

2018-08-23 19:52:10

阅读数:3784

评论数:0

HBase GC的前生今世(一)

原文地址:http://hbasefly.com/2016/05/21/hbase-gc-1/ 在之前的HBase BlockCache系列文章中已经简单提到:使用LRUBlockCache缓存机制会因为CMS GC策略导致内存碎片过多,从而可能引发臭名昭著的Full GC,触发可怕的’stop...

2018-08-23 19:51:09

阅读数:3793

评论数:0

Spark的调度系统

一,简介 Spark调度机制可以理解为两个层面的调度。首先,是Spark Application调度。也就是Spark应用程序在集群运行的调度,应用程序包括Driver调度和Executor调度。其次,就是每个Spark Application都会有若干Jobs(Spark Actions),然...

2018-08-23 09:32:59

阅读数:3789

评论数:0

Flink在唯品会的实践

本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。 ...

2018-08-23 09:30:45

阅读数:3784

评论数:0

kafka性能测试之Comsumer

接下来看看消费者的性能测试 [root@hadoop-sh1-core1 bin]# ./kafka-consumer-perf-test.sh --help Missing required argument "[topic]" Option ...

2018-08-16 16:02:16

阅读数:3809

评论数:0

spark监控

有几种方法可以监控Spark应用程序:Web UI,指标和外部检测。 Web界面 默认情况下,每个SparkContext都会在端口4040上启动Web UI,以显示有关应用程序的有用信息。这包括: 调度程序阶段和任务的列表 RDD大小和内存使用情况的摘要 环境信息。 有关运行执行程序...

2018-08-14 16:51:59

阅读数:3824

评论数:0

spark调优

数据序列化 内存调整 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 其他考虑因素 并行程度 减少任务的内存使用情况 广播大变量 数据位置 概要 由于大多数Spark计算的内存特性,Spark程序可能会受到群集中任何资源的瓶颈...

2018-08-14 16:49:27

阅读数:3789

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭