排序:
默认
按更新时间
按访问量

F1解读

F1最初定位是一个SQL查询引擎,本来是架构在Mysql的分布式集群上。由于Mysql本身的reshared以及分布式事务上的冲突几乎是无解,最终放弃Mysql分布式存储,而转而使用Spanner。单独的F1并不能称为一款数据库。这点在F1论文题目有所误导,更准确的来讲F1是一款SQL执行引擎,包...

2017-07-20 12:08:24

阅读数:535

评论数:0

Spanner数据库解读

最近重读Spanner和F1的论文,涉及的实在太广。这篇文字从一些简单概念上说说这两者究竟是什么,实现上的一些创新,还有一些较常见的误读。以及对比当前的HBase和Phoenix区别       Spanner最重要的设计点就是做全球数据库,要求可扩展性、多数据版本、多replica数据一致性和事...

2017-07-20 11:40:46

阅读数:498

评论数:0

滴滴工程师HBasecon2017参会感受

在国内参加过大大小小的大数据会议,最近几年的感受是hadoop离线的议题慢慢转换成spark、实时计算等的议题。中间偶尔会出现几篇HBase的Topic,但总的来说HBase在国内的影响力确实还是不够。目前来看来主要的来自大厂的使用方包括阿里、小米两家公司通过自家业务的实践,并不断迭代自己的版本,...

2017-07-08 21:49:04

阅读数:1640

评论数:0

Hbase表级别元数据一致性和hbck原理

最近重新回到熟悉的hbase领域,感慨还是很多。首先终于又可以沉下心来好好搞技术了,其次看到现在有冲劲有追求的年轻人就像看到原来的自己。大数据需要一代一代人传承下去。 最近我们上了region group的patch,将原来在2.0里面才合并的patch 加到了0.98版本中。初始使用的时候挺好,...

2017-03-10 18:28:13

阅读数:2154

评论数:0

KuDu论文解读

kudu是cloudera在2012开始秘密研发的一款介于hdfs和hbase之间的高速分布式存储数据库。兼具了hbase的实时性、hdfs的高吞吐,以及传统数据库的sql支持。作为一款实时、离线之间的存储系统。定位和spark在计算系统中的地位非常相似。如果把mr+hdfs作为离线计算标配,st...

2016-07-05 00:25:22

阅读数:4267

评论数:0

从Heron看实时计算系统差异对比

真的有很久没有更新博客了,上一次更新还是2014年。那时候就在写云计算君临天下。感叹变化太快,自己14-15年从storm到全栈工程师,到产品经理,现在又重回大数据,不胜唏嘘。       这两年里,许多新的开源系统发布,平均1、2年技术栈都要变一下。当然,其中最火爆的莫过于spark了。spa...

2016-06-06 11:40:35

阅读数:1741

评论数:0

云计算君临天下

云计算时代终于还是来了。移动终端

2014-10-12 10:50:34

阅读数:1748

评论数:0

2014年技术规划

随着对hadoop大数据体系的了解,对hbase的深入研究。今年会选择一个点深入,其他技术点全面铺开的规划策略。         一个点深入——分布式数据库。无论是hbase、oceanbase、rdbms,其实都是解决一个oltp的问题,解决线上存取数据、简单计算数据的问题。那么万法归一,只要...

2014-02-10 17:04:01

阅读数:1912

评论数:0

Hbase写入量大导致region过大无法split问题

最近在线上往hbase导数据,因为hbase写入能力比较强,没有太在意写的问题。让业务方进行历史数据的导入操作,中间发现一个问题,写入速度太快,并且业务数据集中到其中一个region,这个region无法split掉,处于不可用状态。这里描述一整个过程——         事情的起因:业务方...

2014-02-10 12:09:04

阅读数:9811

评论数:7

hadoop2.0 HDFS搭建和HA切换

说到了hadoop2.0的新特性。这里详解一下搭建步骤以及原理。        首先,需要在cdh官方下载对应的源码包:http://archive.cloudera.com/cdh4/cdh/4/         以cdh4.3.1版本为例来进行说明。         1、hadoop配...

2013-12-17 16:58:20

阅读数:16532

评论数:1

RegionServer不停新建空的hlog

线上0.90.2集群发现一个诡异现象。regionserver不停的新建空Hlog,导致Hlog数量到达100w之多,测试集群的hdfs承受不了压力,挂掉。对相关表做了disable和enable之后才恢复正常。从现象来看应该是写操作引起的,但是为什么会产生这个现象,还待追查。mark一下

2013-08-08 16:36:14

阅读数:2345

评论数:1

互联网视野的一些精彩观点

前天去听微软全球副总裁沈向阳的讲座,还是蛮有收获的。现在记录一下:       1、网页搜索最难的是相关性排序,比较好的是herplink和click来实现,垂直或社交搜索不同       2、创新还是微创新:有钱的时候创新,没钱的时候微创新       3、搜索未来趋势:社交、实体   ...

2013-05-28 11:44:34

阅读数:1844

评论数:0

solr研究

这些天学习solr,整理了下相关资料,发出来给看看。感谢@信息检索团队的@陈毅,以及好朋友@许琦同学的耐心解答。 在此推荐solr学习论坛http://www.solr.cc/ 1. Solr简介 历史: Ø  2004年CNET开发Solar,为CNET提供站内搜索服务 Ø  2006...

2013-05-23 09:34:42

阅读数:7934

评论数:0

hbase集群表在线调整(TTL/compression)

今天发现hbase集群的hdfs使用量已经接近80%,检查发现一个表数据量特别巨大,该表会记录用户每天的一次活动属性,按照4亿用户*197天,有800亿条的数据存放在表中——4TB,对于一个表来说过于大了。有两个问题:1、未开启压缩;2、没设置TTL       经过和业务方讨论,只保留最近93...

2013-04-16 18:11:44

阅读数:4844

评论数:1

mapreduce中控制mapper的数量

很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mappe...

2013-03-08 17:19:33

阅读数:8663

评论数:0

hbase使用、运维、改进(不断更新)

刚刚看了google jeff dean 在新的一年里发表的演讲,讲到各种系统配合使用完成海量数据处理任务。深有感触:http://t.cn/zYE89gn 。2013年,依然会专注hbase研究,并以此为基础扩展,对hbase衍生的一些特性和产品进行深入研究,例如replication、phoe...

2013-03-07 15:27:06

阅读数:11324

评论数:6

简单关键词匹配算法

针对微博的短篇博文,编写的简单分词和匹配算法。相对于一篇文档的复杂分词算法,能够在效率和可用性上得到较好的平衡。 package com.sina.tblog.sentiment; import java.io.BufferedReader; import java.io.File; ...

2012-12-18 15:17:20

阅读数:4950

评论数:1

HBase集群出现NotServingRegionException问题的排查及解决方法

HBase集群在读写过程中,可能由于Region Split或Region Blance等导致Region的短暂下线,此时客户端与HBase集群进行RPC操作时会抛出NotServingRegionException异常,从而导致读写操作失败。这里根据实际项目经验,详细描述这一问题的发现及排查解决...

2012-11-26 13:50:54

阅读数:5960

评论数:1

HBase解决Region Server Compact过程占用大量网络出口带宽的问题

HBase 0.92版本之后,Region Server的Compact过程根据待合并的文件大小分为small compaction和large compaction两种,由此可能导致在集群写入量大的时候Compact占用过多的网络出口带宽。本文将详细描述集群使用过程中遇到这一问题的排查过程及其解...

2012-11-26 13:49:00

阅读数:2260

评论数:0

Hadoop 实战之MapReduce链接作业之预处理

环境:Vmware 8.0 和Ubuntu11.04 Hadoop 实战之MapReduce链接作业之预处理 第一步:首先创建一个工程命名为HadoopTest.目录结构如下图: 第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文...

2012-11-21 09:49:22

阅读数:2854

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭