自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

xiao的博客

质疑一切，特别是权威；勇于尝试；上路流浪；无所畏惧；创造一个更美好的世界。

原创 Hadoop的磁盘写入策略引发的问题

DataNode挂载的磁盘或者DataNode节点挂载多个磁盘，如果存在一些磁盘大小不一样，数据在落盘时就可能会出现磁盘使用率不均匀的情况，容量较小的盘容易被写满，而容量大的盘还剩很多空间。磁盘写满后，影响Hadoop集群的正常工作。国庆第一天，线上集群就报出了JournalNode挂掉的异常情况，经查是由于2T的磁盘被写满，JournalNode无法再写入数据。当时采取了临时的措施，删掉HBase

2017-10-14 13:52:18 2128

原创 HBase工具之BulkLoad

使用BulkLoad是由于实际业务的需要，每个月底都需要向HBase插入大约200G的数据，接近10亿条记录。在插入过程中需要占用大量的IO资源，极大影响了现有的实时数据入库业务的效率。因此需要寻找一种替代的方案来在不影响现有业务的基础上，不占用大量集群资源，快速高效的插入大量的数据。本文主要介绍了BulkLoad的工作机制和应用，以及在使用过程中遇到的问题，最后简要分析了BulkLoad的源码步骤

2017-09-19 18:42:52 2501

原创 2017年8月读书笔记

8月匆匆走过，凉爽的秋风逐渐撵走了夏日的炎热。每月读书，在炎热而又浮躁的8月，用书来慰藉自己。这个月读了2本书，有触动心灵的《摆渡人》，有伟人的成长历程《成为乔布斯》。

2017-08-30 23:22:08 828

原创（一）Spark本地开发环境搭建与远程debug设置

快速看完《Spark大数据处理技术、应用与性能优化》前四章后，对Spark有了一个初步的了解，终于踏出了第一步，现在需要在Spark集群中做些测试例子，熟悉一下开发环境和开发的流程。本文主要总结了如何在本地使用Maven搭建开发环境以及如何进行远程debug。

2017-08-23 23:43:48 5165

原创 HBase的KeyValue分析

在HBase写入过程中，会检查Put中每个单元格Cell的KeyValue大小是否大于设置的maxKeyValueSize。要计算KeyValue的大小就需要了解KeyValue的的格式以及占用空间的计算方式。本文结合官方文档和源码对KeyValue的格式和空间计算进行分析和总结，便于后续继续分析HBase写入过程。

2017-08-12 14:17:54 7923 1

原创我的前端之路

前段时间，公司来了个做前端的实习生，领导让我给她讲讲前端方面的技术学习阶段。回想自己接触前端也就1年多点，其实也没什么的经验，但作为组内唯一会前端的开发人员，还是将自己接触的前端技术整理了一下，吧唧吧唧的给妹子讲了一个多小时。先看图吧，毕生的前端功力都在图上了。

2017-08-12 13:19:17 703

原创 HBase集群启动脚本流程分析

在安装HBase的时候需要配置一些参数，这些参数在HBase启动的时候发挥着怎样的作用，如何影响的HBase的运行，出现启动错误时如何快速定位错误的位置。在解决这些问题之前，先从源码的角度分析一下HBase的启动流程，了解HBase是怎么启动的。

2017-07-30 15:56:15 1560

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ping_hu CSDN认证博客专家 CSDN认证企业博客

码龄10年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

7: 原创

54万+: 周排名

92万+: 总排名

3万+: 访问

: 等级

290: 积分

7: 粉丝

6: 获赞

1: 评论

20: 收藏

私信

关注

热门文章

分类专栏

hbase 3篇
思考和总结 1篇
spark 1篇
读书笔记 1篇
hadoop 1篇

最新评论

HBase的KeyValue分析
梦在NASA: 各位大神！有个这样的问题，我的HBase一个表对应一个省份人群信息（存储该省份的所有人群手机号码），需要在5分钟内能将全省的数据入库到HBase中。其中该表设计如下： rowKey：基站标识+时间（yyyyMMdd） columnFamily:peoFamily; column:00/05/10/15...(每5分钟时间片),一条rowKey对应12个列，即1小时有12个5分钟 value：用逗号分隔的手机号码(该字符串大概有10W个电话号码) 请问大神，value设计是否合理，或者有什么更好的设计方式？ value存储是否直接存HDFS，hbase存对应的偏移量或者文件链接？

最新文章

提示

确定要删除当前文章？

取消删除