自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 大数据开发--思路点滴01

1、海量日志数据,提取出某日访问百度次数最多的那个IP。解决方案:首先是将这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在...

2019-04-05 21:21:00 88

转载 大数据开发认知--架构

1、hadoop 工作原理: a.首先 概括里面的角色(HDFS 、Mapreduce) b.讲解各个角色的整体架构 HDFS: 概念: 分布式文件系统,用于海量数据存储。 架构: master/slave 架构 :1个Namenode和多个Ddatanode。 工作原理: Name...

2019-04-05 21:13:00 116

转载 大数据开发认知--spark

1. Spark rdd生成过程·Spark的任务调度分为四步1RDD objectsRDD的准备阶段,组织RDD及RDD的依赖关系生成大概的RDD的DAG图,DAG图是有向环图。2DAG scheduler细分RDD中partition的依赖关系确定那些是宽依赖那些是窄依赖,生成更详细的DAG图,将DAG图封装成 TaskSet任务集合当触发计算时(执行...

2019-04-05 21:10:00 162

转载 大数据认知

1、大数据组件Yarn:大数据组件运行的job的管理器Spark:分布式的利用内存进行分布式运算的大数据组件Hbase:基于Hadoop的大数据常用数据库Hive:基于Hadoop的大数据数据仓库,操作和关系型数据库(MySQL)类似2、hdfs文件系统中NameNode和DataNode的区别和联系NameNode存储了元数据,并且调度,协调整个集群DataNode主要用来存储...

2019-04-05 21:06:00 94

转载 HDFS配置参数及优化之实战经验(Linux hdfs)

HDFS优化之实战经验 Linux系统优化一、禁止文件系统记录时间Linux文件系统会记录文件创建、修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁的系统来说,可以节约一笔可观的开销。可以修改/et...

2019-04-05 20:57:00 216

转载 hdfs性能调优(cloudera)

参照官方文档:http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_yarn_tuning.html1)对YARN调优:我们实际是2颗CPU,一共24核心数,上面的服务用掉了5核,还剩下24-5=19核心我们实际的64G的内存,64-1-1-(64*20%)=49G...

2019-04-05 20:53:00 119

转载 Hive性能优化上的一些总结

https://blog.csdn.net/mrlevo520/article/details/763390751.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map r...

2019-04-05 20:44:00 87

转载 HBase根据Rowkey批量查询数据JAVA API(一次查多条,返回多个记录)

最近在生产中遇到了一个需求,前台给我多个rowkey的List,要在hbase中查询多个记录(返回给前台list)。在网上也查了很多,不过自己都不太满意,filter的功能有可能查询结果不是准确值,而网上给出的get方法也都是返回一条,scan的话都是返回全部数据,还有用rowkey范围查询的,都跟我的这个应用场景不符啊。无奈,自己找了一个方法,给各位有同样需求的朋友们一个参考。...

2019-04-05 20:42:00 335

转载 HBase Filter及对应Shell

比较运算符 CompareFilter.CompareOp比较运算符用于定义比较关系,可以有以下几类值供选择:EQUAL 相等GREATER 大于GREATER_OR_EQUAL 大于等于LESS 小于LESS_OR_EQUAL 小于等于NOT_EQUAL 不等于比较器 ByteArrayComparable通过比较器可以实现多样化目标匹配效果,比...

2019-04-05 20:41:00 93

转载 HBase API 基础操作

对于数据操作,HBase支持四类主要的数据操作,分别是:Put:增加一行,修改一行Delete:删除一行,删除指定列族,删除指定column的多个版本,删除指定column的制定版本等Get:获取指定行的所有信息,获取指定行和指定列族的所有colunm,获取指定column,获取指定column的几个版本, 获取指定column的指定版本等Scan:...

2019-04-05 20:38:00 272

转载 HBase运维实践-聊聊RIT的那点事

相信长时间运维HBase集群的童鞋肯定都会对RIT(Region-In-Transition,很多参考资料误解为Region-In-Transaction,需要注意)有一种咬牙切齿的痛恨感,一旦Region处于长时间的RIT就会有些不知所措,至少以前的我就是这样过来的。正所谓“恐惧来源于未知”,不知所措意味着我们对RIT知之甚少,然而“凡事都有因果,万事皆有源头”,处于RIT状态的Reg...

2019-04-05 20:31:00 155

转载 HBase读延迟的12种优化套路

任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大。Full GC问题之前在一些文章里面已经讲过它的来龙去脉,主要的解决方案目...

2019-04-05 20:29:00 103

转载 HBase最佳实践-写性能优化策略

本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能。和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Memstore,当Memstore中数据大小达到一定阈值(128M)之后,系统会异步将Memstore中数据flush到HDFS形成小文件。开发者盛宴来袭!7月28日51CTO首届开发者大赛决赛带来技术创新分享本篇...

2019-04-05 20:22:00 79

转载 HBase scan setBatch和setCaching的区别

HBase的查询实现只提供两种方式:1、按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get)2、按指定的条件获取一批记录,scan方法(org.apache.Hadoop.Hbase.client.Scan)实现条件查询功能使用的就是scan方式,scan在使用时有以下几点值得注意:1、scan可以通过set...

2019-04-05 20:16:00 189

转载 HBase在单Column和多Column情况下批量Put的性能对比分析

作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2013/11/28/hbase-batch-put-performance-analysis-of-single-column-and-multiple-columns.html针对HBase在单column fa...

2019-04-05 20:13:00 269

转载 【HBase调优】Hbase万亿级存储性能优化总结

背景:HBase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对HBase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,HBase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对HBase集群服务和应用全面监控的报警系统。总结下HBase优化(针对0.94版本)方面的一些经验也...

2019-04-05 20:10:00 82

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除