![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 76
snwz5588668
这个作者很懒,什么都没留下…
展开
-
hadoop中hdfs写入文件的原理剖析
[size=large]最近忙里偷闲,充充电,虽然在四线城市,但是也要为即将到来的大数据时代最准备不是 :D :D 下面的大白话简单记录了hdfs在存储文件时都做了哪些个事情,问了将来集群问题的排查提供一些参考依据。步入正题 :arrow: 创建一个新文件的过程:[b]第一步:[/b]客户端通过DistributedFilesystem 对象中的creat()方法来创建文...原创 2015-01-08 09:11:50 · 148 阅读 · 0 评论 -
Mapreduce优化的点滴
[b]注:转载[/b][size=large]1. 使用自定义Writable[/size]自带的Text很好用,但是字符串转换开销较大,故根据实际需要自定义Writable,注意作为Key时要实现WritableCompareable接口避免output.collect(new Text( ),new Text())提倡key.set( ) value.set( ...原创 2015-07-16 15:18:57 · 84 阅读 · 0 评论 -
HBase中asynchbase的使用方式
Hbase的原生java 客户端是完全同步的,当你使用原生API 例如HTableInterface 访问HBase表,每个动作都会有一个短暂的阻塞,这对于一些流程较长的操作看起来比较不利。HBase在此还提供了另外一种java客户端 asynchbase,它实现了完全异步以及考虑线程安全。依赖jar:asynchbase.jar slf4j-api.jar ...原创 2015-08-25 10:32:39 · 3713 阅读 · 0 评论 -
从OpenTsdb来分析rowkey设计
讨论此问题前,先理解一个问题。关于Hbase热点问题当处理由连续事件得到的数据时,即时间上连续的数据。这些数据可能来自于某个传感器网络、证券交易或者一个监控系统。它们显著的特点就是rowkey中含有事件发生时间。带来的一个问题便是HBase对于row的不均衡分布,它们被存储在一个唯一的rowkey区间中,被称为region,区间的范围被称为Start Key和End Key。对...原创 2015-09-06 16:04:00 · 676 阅读 · 0 评论 -
通过GeoHash核心原理来分析hbase rowkey设计
注:本文是结合hbase实战以及网上的博文概述了一下,以作后期使用时的备份。 参考资料:http://www.cnblogs.com/LBSer/p/3310455.html 百度地图,美团,大众点评等等等等,都会有查找附近的功能,如何实现呢?计算所在位置P与北京所有餐馆的距离,然后返回距离...2015-09-08 15:49:46 · 422 阅读 · 0 评论 -
一篇很好的解决系统问题过程描述文章
[size=large][color=darkred]在网上看到的一篇解决hbase性能问题的文章,虽然文章不长,但是我相信作者在此经历的过程和从中学到的知识要比这个深刻的太多了。[/color][/size][b]原文地址:[url]http://tech.meituan.com/opentsdb_hbase_compaction_problem.html[/url][/b][b][...原创 2015-09-23 08:40:25 · 267 阅读 · 0 评论 -
HBase在各大应用中的优化和改进
[size=large]Facebook之前曾经透露过Facebook的hbase架构,可以说是非常不错的。如他们将message服务的hbase集群按用户分为数个集群,每个集群100台服务器,拥有一台namenode以及分为5个机架,每个机架上一台zookeeper。可以说对于大数据量的服务这是一种优良的架构。对于淘宝来说,由于数据量远没有那么大,应用也没有那么核心,因此我们采用公用hdfs以及...原创 2015-10-28 14:59:43 · 129 阅读 · 0 评论 -
hadoop计算能力调度器配置
[size=x-large]问题出现[/size]hadoop默认调度器是FIFO,其原理就是先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。比如有两个作业job1和job2,job1提交了一个优先级比较高的作业,而且独占资源时间特别长,这时候来了一个job2作业,就需要等待job1完成释放后才能执行。[size=x-large]解决方法[/size]hadoop有f...原创 2015-10-29 10:39:43 · 126 阅读 · 0 评论 -
spark基本概念
记录一下课堂笔记:定义:spark是一个快速的,通用的分析大数据处理引擎。DAG(有向无环图):在图论中,如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。DAG可用于对数学和 计算机科学中得一些不同种类的结构进行建模。由...原创 2015-11-12 10:45:00 · 141 阅读 · 0 评论 -
spark部署安装调试
本节记录spark下载-->编译-->安装-->使用首先从主站下载spark源码包(源码包更利于我们学习spark)[url]http://spark.apache.org/downloads.html[/url]注意选择所需要的相对应的spark源码版本,在此我们选择使用spark-1.3.0[img]http://dl2.iteye.com/upload/attachmen...原创 2015-12-02 11:28:33 · 86 阅读 · 0 评论 -
hadoop 如何自定义类型
记录一下hadoop 数据类型章节的笔记,以便后期使用,本文是边学习边记录,持续更新中[size=large][b]Hadoop 常用自带的数据类型和Java数据类型配比如下[/b][/size][table]|[color=red]Hadoop类型[/color]|[color=red]Java类型[/color]|[color=red]描述[/color]||Boole...原创 2015-07-15 09:37:00 · 256 阅读 · 0 评论 -
napreduce shuffle 过程记录
[size=large][b]在我看来 hadoop的核心是mapreduce,而mapreduce的核心则是 shuffle,在我们需要优化mapreduce,提高mapreduce效率时,需要优化的核心代码都在这个shuffle过程。 我从网上拉过来一张图,加上自己的标注来详细记录一下该过程,以便后期优化代码做一个记录mapreduce整个执行过程如下...原创 2015-07-10 11:23:42 · 136 阅读 · 0 评论 -
hadoop中hdfs读取文件的原理剖析
[size=large]上一篇文章中简单介绍了一下hadoop文件存储的一些逻辑与简单原理,既然后写入,那肯定要读取分析数据咯,下面我在白话一下hdfs中文件读取的逻辑与简单原理。 :oops: :oops: [b]第一步:[/b]跟写入文件一样,首先客户端会调用DistributedFilesyStem 对象的open()方法来打开文件,这个方法要做的事情就是:Distributed ...原创 2015-01-08 11:45:36 · 208 阅读 · 0 评论 -
hadoop单节点部署
[size=large]下面我们来一步步的进行hadoop安装部署:从零开始机器环境Distributor ID: CentOSDescription: CentOS release 5.8 (Final)Release: 5.8Codename: Finaljdk 版本java version "1.6.0_45"hadoop 版本2.5.2 ...原创 2015-01-08 15:35:57 · 124 阅读 · 0 评论 -
hadoop集群部署时候的几个问题记录
[size=large]本章部署一个hadoop 集群由于2.5.x 已经出来有好几个月了,网上配置类似架构的文章也有很多,所以在这里重点描述一下namenode 和 secondary namenode不再同一台机器上的配置方法,以及namenode 宕机后 meta数据的恢复方法,并且描述一下几个主要配置文件中配置项的意义。集群大概框架为1个namenode 一个 secon...原创 2015-01-13 10:24:38 · 116 阅读 · 0 评论 -
hadoop yarn几个问题的记录
本文主要介绍以下几个知识:一、老的 hadoop框架存在的问题二、yarn框架的优势三、yarn框架中几个功能组件介绍一:老的 hadoop框架存在的问题首先我们要了解老hadoop框架中任务流程1:首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce 框架的中心,他需要与集群中的机器定时...原创 2015-01-13 11:48:54 · 102 阅读 · 0 评论 -
mapreduce 开发以及部署
前面几篇文章的梳理让我对hadoop新yarn 框架有了一个大概的认识,今天开始回归老本行---开始coding。因为涉及到linux系统部署,所以今天安了一个linux 的 lszrz 插件下载并解压缩 lrzsz-0.12.20.tar.gz安装之前,需要检查系统是否有gcc 若没有请安装 yum install gcc安装lrzsz ./configure &...原创 2015-01-16 13:56:45 · 193 阅读 · 0 评论 -
hadoop 动态添加删除节点
转自:http://www.cnblogs.com/rilley/archive/2012/02/13/2349858.html添加节点1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上,启动服务[root@slave-004 hadoop...原创 2015-01-20 13:39:38 · 151 阅读 · 0 评论 -
推荐引擎内部原理--mahout
转载自:https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/集体智慧和协同过滤什么是集体智慧集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的,只是在 Web2.0 时代,大家在 Web 应用中利用集体智慧构建更加有趣的应用或者得到更好的用户体验。集体智慧...原创 2015-01-22 11:11:15 · 145 阅读 · 0 评论 -
hadoop-mahout 核心算法总结
其实大家都知道hadoop为我们提供了一个大的框架,真正的算法还是要程序员自己去实现,所以了解hadoop大概架构之后就要了解一些基本的算法。mahout--可以理解为hadoop的驾驶员。学习它一定要从《mahout in action》入手,在此我记录下一些学习的笔记仅供参考。 第一节:基于用户的推荐算法GenericUserBasedRecommender 算法原理官...原创 2015-02-07 10:08:36 · 337 阅读 · 0 评论 -
ZooKeeper伪分布式集群安装及使用
1. zookeeper介绍ZooKeeper是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在于通过分布式ZooKeeper集群(一个Leader,多个Follower),基于一定的策略来保证ZooKe...原创 2015-02-13 08:29:32 · 108 阅读 · 0 评论 -
Sort-based Shuffle的设计与实现
原文 http://www.cnblogs.com/hseagle/p/3979744.html [size=large][b]概要[/b][/size][size=medium]Spark 1.1中对spark core的一个重大改进就是引入了sort-based shuffle处理机制,本文就该处理机制的实现进行初步的分析。[/size]通过一个小的实验来直观的感...原创 2016-03-15 08:49:25 · 204 阅读 · 0 评论