大数据
文章平均质量分 70
dingguanyi
这个作者很懒,什么都没留下…
展开
-
Hadoop Yarn配置参数整理(非常全面)
RM与NM相关参数ResourceManager参数名称 作用 默认值 yarn.resourcemanager.address ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。 ${yarn.resourcemanager.hostname}:8032 yarn.resourcemanager.scheduler.address ResourceManager 对ApplicationMaster暴露的访转载 2021-09-14 20:00:41 · 4581 阅读 · 0 评论 -
SecureCRT中Scala中无法退格和删除
在写scala代码的时候,发现一个问题,就是写好了代码,却无法删除,这基本上就不能写代码了。解决办法:1.修改终端为Linux2.勾选图示两个映射。3.重新打开终端测试退格键,已经可以成功删除。...转载 2021-08-05 13:45:10 · 493 阅读 · 0 评论 -
Hadoop之—— WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/51538611注:升级glib库解决问题请参加链接:https://blog.csdn.net/l1028386804/article/details/88420473配置完hadoop启动的时候出现如下警告信息:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform.转载 2021-07-23 11:50:11 · 915 阅读 · 0 评论 -
CentOS6的yum源失效官方停止维护更新及解决
关键词:CentOS6 官方停止维护更新源仓库失效yum源失效 yum安装报错 yum更新报错 [Errno 256] [Errno 14] [404 Not Found] 阿里镜像源报错失效 网易镜像源报错失效epel CentOS5背景:在进行服务器系统安全类问题更新时,yumupdate更新发现报错如下复制代码[Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 404 Not Found"Trying...转载 2021-07-22 16:46:40 · 970 阅读 · 0 评论 -
VMware克隆虚拟机(CentOS)以及克隆后有关的网络配置
在克隆虚拟机之前,我们需要了解以下文件:1、/etc/udev/rules.d/70-persistent-net.rules这是网卡有关信息的配置文件,我们可以先查看一下master的网卡信息(当然也可以用ifconfig命令查看):要注意的是网卡名称以及MAC地址。MAC地址(产品出产后Mac地址就固定了)用于在网络中唯一标示一个网卡,一台设备若有一或多个网卡,则每个网卡都需要并都会有一个唯一的MAC地址。2、/etc/hosts这是配置ip地址和其对应主机名的文件,这里可以记录本机转载 2021-07-20 11:25:27 · 1940 阅读 · 0 评论 -
《Hadoop基础教程》之初识Hadoop
Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。 《Hadoop基础教程》是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史、核心技术和应用场景有了初步了解。 Hadoop历史 雏形开始于2002年的Apa转载 2017-09-09 22:22:10 · 249 阅读 · 0 评论 -
CentOS6.5环境下编译hadoop2.8.1源码
一、环境准备: (1)CentOS6.5虚拟机 (2)hadoop2.8.1源码包下载:http://pan.baidu.com/s/1mikiNgc二、源码编译 1.查看是否安装过hadoopps -ef|grep hadoopfind / -name hadoop 2.在/opt下创建目录,上传源码包,解压mkdir sourcecode softwaretar原创 2017-09-10 11:53:18 · 324 阅读 · 0 评论 -
Hadoop2.6.0子项目hadoop-mapreduce-examples的简单介绍
引文学习Hadoop的同学们,一定知道如果运行Hadoop自带的各种例子,以大名鼎鼎的wordcount为例,你会输入以下命令:[python] view plain copyprint?hadoop org.apache.hadoop.examples.WordCount -D mapreduce.input.fileinputformat.s转载 2017-10-04 21:25:33 · 2102 阅读 · 0 评论 -
HDFS追本溯源:体系架构详解
Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。HD转载 2017-10-05 23:15:27 · 221 阅读 · 0 评论 -
MPI, MapReduce 应用比较分析
http://redtreewood.blogspot.com/2009/10/openmp-mpi-mapreduce.htmlOpenMP:OpenMp是线程级别的,共享是存储,只适应用于共享总线与内存,单一操作系统映像的SMP机器和DSM机器。可扩展性比较差,对机器的要求比较高。一般双核的机器(很多CPU共享内存条)适合用OpenMP,可以提高一定的运行速度。这个转载 2017-10-16 23:10:36 · 819 阅读 · 0 评论 -
初步掌握Yarn的架构及原理
1、YARN 是什么? 从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看,MapReduce的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷。在过去的几年中,hadoop 开发团队做了一些 bug 的修复,但是这些修复的成本越来越高,这表明对原框架做出改变的难度越来越大。为从根本上解决旧Map转载 2017-10-23 20:39:21 · 213 阅读 · 0 评论 -
HDFS架构和读写流程详解
一、基本概念 1.HDFS(Hadoop Distributed File System): 分布式文件系统,将一个文件分成多个块,分别存储(拷贝)到不同的节点上,它是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。原创 2017-10-06 18:09:40 · 2416 阅读 · 0 评论 -
写给大数据开发初学者的话
导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,...转载 2018-06-06 10:16:21 · 249 阅读 · 0 评论 -
【译文】MapReduce:大型集群上的简化数据处理
【译文】MapReduce:大型集群上的简化数据处理 作者:Jeffrey Dean 和 Sanjay Ghemawat摘要: MapReduce是一个编程模型,以及处理和生成大型数据集的一个相关实现,它适合各种各样的现实任务。用户指定计算的map和reduce函数。底层运行系统自动地将大规模集群机器间的计算并行化,处理机器故障,以及调度机器间通信以充分利用网络和磁...转载 2018-11-14 15:21:47 · 744 阅读 · 3 评论 -
HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的 咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过...转载 2019-01-27 11:13:41 · 278 阅读 · 0 评论 -
hadoop-daemon.sh 和Hadoop-daemons.sh 的区别
Hadoop-daemon.sh:用于启动当前节点的进程例如Hadoop-daemon.sh start namenode 用于启动当前的名称节点Hadoop-daemons.sh:用于启动所有节点的进程例如:Hadoop-daemons.sh start datanode 用于启动所有节点的数据节点...转载 2019-01-27 19:10:56 · 1279 阅读 · 0 评论 -
HDFS读写流程
读程图: 1、客户端发送请求,调用DistributedFileSystem API的open方法发送请求到Namenode,获得block的位置信息,因为真正的block是存在Datanode节点上的,而namenode里存放了block位置信息的元数据。2、Namenode返回所有block的位置信息,并将这些信息返回给客户端。3、客户端拿到block的位置信息后调用FSD...转载 2019-01-27 19:48:41 · 343 阅读 · 0 评论 -
hive删除分区名带特殊字符
hive sql脚本中带变量如:select table_coulm from table_name where dt='{etl_date}'; --dt是分区名如果变量未赋值,{etl_date}会变成特殊字符dt=$%7Betl_date}删除带特殊字符的分区:alter table tmp_h02_click_log drop partition(dt='${etl_date}')...转载 2019-02-24 11:48:15 · 2190 阅读 · 1 评论 -
Hive-数据文件分隔符为多字符问题
在网上中文搜索出的结果,多半都是过时解决方法,还是推荐google,stackoverflow。先上结论:如果是0.14以后的版本,直接用MultiDelimitSerde;否则,偏向于先预处理下源数据文件。1.如果是Hive0.14 (2014-12月发布)以后的版本,就可以用MultiDelimitSerde优雅的解决这个问题。This issue has been res...转载 2019-05-15 13:55:18 · 519 阅读 · 0 评论 -
Hadoop常用命令
一、hdfs (1)hdfs dfs:run a filesystem command on the file systems supported in Hadoop 等价于hadoop fs,原因是底层调用的是同一个类查看hdfs系统根目录 hdfs dfs -ls /递归查询根目录下信息 hdfs dfs -ls -R /创建文件夹 hdfs dfs -mkdir /user/tmp/原创 2017-10-29 11:07:53 · 245 阅读 · 0 评论 -
HDFS体系结构
Namenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息metadate和每个文件对应的数据块列表。功能:接收用户的操作请求。metadate信息包括:1、文件的owership和permission。2、文件包含哪些block块3、block保存在哪个DataNode(由DataNode启动时上报)metadate转载 2017-10-05 23:14:13 · 393 阅读 · 0 评论 -
循序渐进,了解Hive是什么!
一直想抽个时间整理下最近的所学,断断续续接触hive也有半个多月了,大体上了解了很多Hive相关的知识。那么,一般对陌生事物的认知都会经历下面几个阶段:为什么会出现?解决了什么问题?如何搭建?如何使用?如何精通?我会在本篇粗略的介绍下前两个问题,然后给一些相关的资料。第三个问题,就得慢慢靠实践和时间积累了。如果有什么问题,可以直接留言!为什么出现?解决了什么问题?背景转载 2017-11-22 21:23:53 · 189 阅读 · 0 评论 -
MapReduce和Yarn的架构设计
一、MapReduce1架构设计 和HDFS一样,MapReduce也是采用Master/Slave的架构,其架构如下图所示: Clinet:每一个Job都会在用户端通过Client类将应用程序以及参数配置Configuration打包成Jar文件存储在HDFS,并把路径提交到JobTracker的master服务,然后由master创建每一个Task(即MapTask和ReduceTa原创 2017-10-22 10:50:34 · 688 阅读 · 0 评论 -
伪分布式安装hadoop2.8.1
一、环境准备:《CentOS6.5环境下编译hadoop2.8.1源码》中编译好的源码ll /opt/sourcecode/hadoop-2.8.1-src/hadoop-dist/target/hadoop-2.8.1.tar.gzcd /opt/softwarecp /opt/sourcecode/hadoop-2.8.1-src/hadoop-dist/target/hadoop原创 2017-10-04 17:15:47 · 351 阅读 · 0 评论 -
Hive(一):架构及知识体系
Hive是一个基于Hadoop的数据仓库,最初由Facebook提供,使用HQL作为查询接口、HDFS作为存储底层、mapReduce作为执行层,设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据,2008年facebook把Hive项目贡献给Apache。Hive提供了比较完整的SQL功能(本质是将SQL转换为MapReduce),自身最大的缺点就是执行速度慢。Hive有自身转载 2017-11-29 21:58:28 · 271 阅读 · 0 评论 -
Hadoop安全模式详解及配置
在《Hadoop 1.x中fsimage和edits合并实现》文章中提到,Hadoop的NameNode在重启的时候,将会进入到安全模式。而在安全模式,HDFS只支持访问元数据的操作才会返回成功,其他的操作诸如创建、删除文件等操作都会导致失败。 NameNode在重启的时候,DataNode需要向NameNode发送块的信息,NameNode只有获取到整个文件系统中有99.9%(可以配置的)转载 2017-10-05 10:40:35 · 582 阅读 · 0 评论 -
Hadoop Yarn 框架原理及运作机制
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。转载 2017-10-16 22:03:21 · 167 阅读 · 0 评论 -
初识hadoop
一、什么是hadoop狭义:软件,分布式系统基础架构 褒义:以hadoop为主的生态圈二、hadoop1.X和hadoop2.X区别 组件 hadoop1.X hadoop2.X 作用 HDFS 有 有 存储 MapReduce 有(计算+资源) 有 计算 YARN 无 有 资源三、hadoop三大组件(摘自百度百科)1.HDFS(H原创 2017-09-09 22:54:40 · 220 阅读 · 0 评论 -
HDFS 常用文件操作命令
前言HDFS命令基本格式:hadoop fs -cmd ls 命令hadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件put 命令hadoop fs -put hdfs file的父目录一定要存在,否则命令不会执行hadoop fs -put ...转载 2017-10-08 11:23:12 · 290 阅读 · 0 评论 -
Cloudera的CDH和Apache的Hadoop的区别
目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本转载 2017-09-10 23:46:10 · 223 阅读 · 0 评论 -
Secondary NameNode:它究竟有什么作用?
前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂,现将其翻译如下:转载 2017-09-11 19:48:45 · 222 阅读 · 0 评论 -
经典漫画讲解HDFS原理
分布式文件系统比较出名的有HDFS 和 GFS,其中HDFS比较简单一点。本文是一篇描述非常简洁易懂的漫画形式讲解HDFS的原理。比一般PPT要通俗易懂很多。不难得的学习资料。1、三个部分: 客户端、nameserver(可理解为主控和文件索引类似linux的inode)、datanode(存放实际数据的存server) 2、如何写数据过程转载 2017-09-11 20:08:08 · 369 阅读 · 0 评论 -
Hadoop大数据生态系统及常用组件简介
经过多年信息化建设,我们已经进入一个神奇的“大数据”时代,无论是在通讯社交过程中使用的微信、QQ、电话、短信,还是吃喝玩乐时的用到的团购、电商、移动支付,都不断产生海量信息数据,数据和我们的工作生活密不可分、须臾难离。 什么是大数据 什么是大数据,多大算大,100G算大么?如果是用来存储1080P的高清电影,也就是几部影片的容量。但是如果100G都是文转载 2017-09-09 23:01:35 · 1575 阅读 · 0 评论 -
HDFS原理解析(总体架构,读写操作流程)
前言HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和 存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作 而不会有数据损失。一、HDFS体系结构1、Name转载 2017-10-05 23:13:02 · 296 阅读 · 0 评论 -
Hadoop1.x HDFS系统架构
1. HDFS中的一些概念HDFS(Hadoop Distributed File System):分布式文件系统,将一个文件分成多个块,分别存储(拷贝)到不同的节点上,它是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用转载 2017-10-05 23:24:15 · 316 阅读 · 0 评论 -
MapReduce 2.0应用场景和原理、基本架构和编程模型
一.MapReduce的应用场景1.MapReduce特点 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理 备注:*MR的最后一个特性就注定了它的应用场景的特定性,专门为处理离线批量大数据*而生。 问:那MR不擅长什么啊?它不擅长的东西谁比较擅长呢?2.MapReduce的特色—不擅长的方面实时计算spark 像MyS转载 2017-10-16 21:28:58 · 1349 阅读 · 0 评论 -
OpenMP、MPI 和 MapReduce 对比
OpenMP和MPI是并行编程的两个手段,对比如下:OpenMP:线程级(并行粒度);共享存储;隐式(数据分配方式);可扩展性差;MPI:进程级;分布式存储;显式;可扩展性好。OpenMP采用共享存储,意味着它只适应于SMP,DSM机器,不适合于集群。MPI虽适合于各种机器,但它的编程模型复杂:需要分析及划分应用程序问题,并将问题映射到分布式进程集合转载 2017-10-16 23:18:16 · 1213 阅读 · 1 评论 -
Hadoop-WordCount运行详解
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;转载 2017-10-29 11:08:33 · 625 阅读 · 0 评论 -
Apache Hive简介
一、Apache Hive简介官方网址:https://hive.apache.org/The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structu转载 2017-11-22 21:02:25 · 879 阅读 · 0 评论 -
错误Name node is in safe mode的解决方法
将本地文件拷贝到hdfs上去,结果上错误:Name node is in safe mode这是因为在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全转载 2017-10-05 10:23:10 · 301 阅读 · 0 评论