大数据计算存储-Hadoop
HuFeiHu-Blog
知无涯者,虚心若愚,求知若饥,勇者天佑!
展开
-
Hadoop/Spark相关面试问题总结
面试回来之后把其中比较重要的问题记了下来写了个总结: (答案在后面)1、简答说一下hadoop的map-reduce编程模型2、hadoop的TextInputFormat作用是什么,如何自定义实现3、hadoop和spark的都是并行计算,那么他们有什么相同和区别4、为什么要用flume导入hdfs,hdfs的构架是怎样的5、map-reduce程序运行的时候会有什么比较...转载 2019-01-08 14:29:07 · 279 阅读 · 0 评论 -
Sqoop
Sqoop官方参考文档:http://sqoop.apache.org/docs/1.4.6/index.html Sqoop介绍Sqoop is a tool designed to transfer data between Hadoop and relational databases or mainframes. You can use Sqoop to impor转载 2017-09-23 11:33:11 · 191 阅读 · 0 评论 -
MapReduce -- 统计天气信息
示例 数据:1949-10-01 14:21:02 34c1949-10-02 14:01:02 36c1950-01-01 11:21:02 32c1950-10-01 12:21:02 37c1951-12-01 12:21:02 23c1951-12-02 12:21:02 45c1951-12-03 12:21:0转载 2017-09-23 11:31:36 · 931 阅读 · 0 评论 -
kafka学习笔记:知识点整理
一、为什么需要消息系统1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3.扩展性...转载 2017-08-05 17:08:33 · 411 阅读 · 0 评论 -
Hadoop RCFile存储格式详解(源码分析、代码示例)
RCFile RCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件。 关键词:Record、Columnar、Key、Value。 RCFile的优势在哪里?适用于什么场景?为了让大家有一个感性的认识,我们来看一个例子。 假设我们有这样一张9行3列的Hive数据转载 2017-08-03 20:08:26 · 833 阅读 · 0 评论 -
Sqoop详细介绍包括:sqoop命令,原理,流程
一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。转载 2017-08-02 07:57:34 · 516 阅读 · 0 评论 -
经典大数据平台展示
转载 2017-08-08 17:02:51 · 5057 阅读 · 1 评论 -
资深架构师教你一篇文看懂Hadoop
“昔我十年前,与君始相识。” 一瞬间Hadoop也到了要初中择校的年龄了。十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务。2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核转载 2017-08-07 23:02:42 · 2788 阅读 · 1 评论 -
Protobuf 语法指南
目录 [−]定义一个消息类型指定字段类型分配标识号指定字段规则添加更多消息类型添加注释从.proto文件生成了什么?标量数值类型Optional的字段和默认值枚举使用其他消息类型导入定义嵌套类型组更新一个消息类型扩展嵌套的扩展选择可扩展的标量符号Oneof使用Oneof向转载 2017-08-07 16:55:31 · 347 阅读 · 0 评论 -
使用Apache Avro
Avro[1]是最近加入到Apache的Hadoop家族的项目之一。为支持数据密集型应用,它定义了一种数据格式并在多种编程语言中支持这种格式。Avro提供的功能类似于其他编组系统,如Thrift、Protocol Buffers等。而Avro的主要不同之处在于[2]:“动态类型:Avro无需生成代码。数据总是伴以模式定义,这样就可以在不生成代码、静态数据类型的情况下对数据进行所转载 2017-08-07 16:44:13 · 444 阅读 · 0 评论 -
spark使用scala读取Avro数据
为什么使用 Avro ?最基本的格式是 CSV ,其廉价并且不需要顶一个一个 schema 和数据关联。随后流行起来的一个通用的格式是 XML,其有一个 schema 和 数据关联,XML 广泛的使用于 Web Services 和 SOA 架构中。不幸的是,其非常冗长,并且解析 XML 需要消耗内存。另外一种格式是 JSON,其非常流行易于使用因为它非常方便易于理解。转载 2017-08-07 16:26:21 · 4432 阅读 · 0 评论 -
使用Ambari快速部署Hadoop大数据环境
作者:杨鑫奇前言做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能.作为新手,我讲讲我自己的学习经历,刚刚开始学习的时候,当然最简单的 Google 下Hadoop ,然后下载相关的包,转载 2017-07-30 11:38:35 · 467 阅读 · 0 评论 -
异常解决:util.NativeCodeLoader: Unable to load native-hadoop library for your platform
刚装好Hadoop的时候,每次输入命令运行都会出现:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-Javaclasses where applicable提示hadoop不能加载本地库。以前官网会提供32位的安装包,但目前提供转载 2017-07-29 16:49:15 · 1257 阅读 · 0 评论 -
install apache hadoop on ubuntu
(1) install java #remove openjdksudo apt-get remove openjdk* #Download jdk from Oracle websitetar -zxvf jdk*.tar.gzmv jdk /usr/local/java/# write environment variables to转载 2017-07-29 16:48:21 · 276 阅读 · 0 评论 -
Spark高级数据分析(1) ——纽约出租车轨迹的空间和时间数据分析
本文在之前搭建的集群上,运行一个地理空间分析的示例,示例来自于《Spark高级数据分析》第八章。 Github项目地址:https://github.com/sryza/aas/tree/master/ch08-geotime , 这个例子是通过分析纽约市2013年1月份的出租车数据,统计纽约市乘客下车点落在每个行政区的个数。 在开始正文之前,需要掌握以下基础知识:Scal转载 2017-06-10 22:24:18 · 2608 阅读 · 1 评论 -
大规模文档相似度计算—基于MapReduce框架
现有Doc-word矩阵,采用余弦计算两两文档之间的相似度。在实际问题中,矩阵通常是很稀疏的,为了减少计算量,通常采用倒排索引的数据结构[1], 将包含相同word的doc映射到同一个节点上, 这样只需计算相似度不为0的文档之间的相似度, 从而减少计算量,具体过程如图1所示。 图1. 建立倒排索引计算文档相似度(来源于参考文献[1]) 上述方法虽然避转载 2017-06-01 22:53:25 · 2551 阅读 · 0 评论 -
基于Docker布署分布式hadoop环境
1.安装Docker 安装Docker的方法这里不再详述,根据自己的操作系统在网上有一大堆教程。今天我们的主要任务是在DOCKER上布署Hadoop。 2.下载 ubutun镜像docker pull ubuntu:14.0411这条命令的作用是从Docker仓库中获取ubuntu的镜像,下载完成以后,使用docker images,可以列出所有本地的镜像 Docker常用转载 2017-06-05 16:14:32 · 532 阅读 · 1 评论 -
Mahout源码分析之 -- 文档向量化TF-IDF
Mahout之SparseVectorsFromSequenceFiles源码分析一、原理TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或转载 2017-06-04 18:36:44 · 597 阅读 · 0 评论 -
HUE配置hadoop
HUE配置hadoopHDFS配置参考文档:http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.5.0/manual.html Hadoop配置文件修改hdfs-site.xml dfs.webhdfs.enabled truecore-site.html hadoop.proxyus转载 2017-09-23 11:37:13 · 766 阅读 · 0 评论 -
MapReduce --全排序
MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序,但是无法做到全局排序,需要将数据传递到reduce,然后通过reduce进行一次总的排序,但是这样做的要求是只能有一个reduce任务来完成。 并行程度不高,无法发挥分布式计算的特点。 MapReduce全排序的方法2: 针对方法1的问题,现在介绍方法2来进行改进;转载 2017-09-23 11:42:45 · 1102 阅读 · 0 评论 -
Google File System及其继任者Colossus
Google File System及其继任者Colossus在CMU 16Fall学期Storage Systems的课堂上,我有幸听了在Google Infra Team的Larry Greenfield的一个Lecture。其中,Larry对GFS的设计初衷理念、优劣势、瓶颈、改进以及现役系统Colossus (GFS2)进行了简要介绍。其中涉及的内容相当宝贵,故在这里记下。背景...转载 2018-11-08 17:51:27 · 438 阅读 · 0 评论 -
资源list:Github上关于大数据的开源项目、论文等合集
Awesome Big DataA curated list of awesome big data frameworks, resources and other awesomeness. Inspired byawesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data.Your contr...转载 2018-10-15 20:58:31 · 1443 阅读 · 0 评论 -
大数据真实案例:Spark在美团的实践
美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主,底层计算引擎为MapRe...转载 2018-03-11 11:01:27 · 12229 阅读 · 2 评论 -
写给大数据开发初学者的话
导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火转载 2017-12-21 21:06:59 · 526 阅读 · 1 评论 -
Datax与hadoop2.x兼容部署与实际项目应用工作记录分享
一、概述 Hadoop的版本更新挺快的,已经到了2.4,但是其周边工具的更新速度还是比较慢的,一些旧的周边工具版本对hadoop2.x的兼容性做得还不完善,特别是sqoop。最近,在为hadoop2.2.0找适合的sqoop版本时遇到了很多问题。尝试了多个sqoop1.4.x版本的直接简单粗暴的报版本不兼容问题,其中测了sqoop-1.4.4.bin__hadoop-0.23这个版本,在转载 2017-12-21 21:02:51 · 1710 阅读 · 0 评论 -
HDFS基本原理及数据存取实战
文章出处:http://blog.csdn.net/sdksdk0/article/details/51622547作者:朱培---------------------------------------------------------------------------------------------------------------本文主要介绍了hdfs的转载 2017-09-12 11:20:32 · 301 阅读 · 0 评论 -
flume的source, channel, sink 列表
Flume SourceSource类型说明Avro Source支持Avro协议(实际上是Avro RPC),内置支持Thrift Source支持Thrift协议,内置支持Exec Source基于Unix的command在标准输出上生产数据JMS Source从JMS系转载 2017-09-26 11:51:35 · 345 阅读 · 0 评论 -
Ambari安装之部署3个节点的HA分布式集群
前期博客Ambari安装之部署单节点集群 其实,按照这个步骤是一样的。只是按照好3个节点后,再做下HA即可。 部署3个节点的HA分布式集群(1)添加机器和添加服务的操作类似,如下图之后的添加ambari03、ambari04操作就和部署ambari02类似,可以参照前面的步骤。这里不多赘述。Ambari安装之部署单节点集群转载 2017-09-15 19:39:25 · 1970 阅读 · 1 评论 -
Ambari安装之部署单节点集群
前期博客大数据领域两大最主流集群管理工具Ambari和Cloudera MangerAmbari架构原理Ambari安装之Ambari安装前准备(CentOS6.5)(一)Ambari安装之部署本地库(镜像服务器)(二) 部署hdp单节点集群(1)部署Agent1) 注册并安装agenthttp://192.168.80.144:808转载 2017-09-15 19:38:30 · 2364 阅读 · 0 评论 -
Ambari安装之安装并配置Ambari-server(三)
前期博客 Ambari安装之部署本地库(镜像服务器)(二) 安装并配置Ambari-server(1)检查仓库是否可用[hadoop@ambari01 yum.repos.d]$ pwd/etc/yum.repos.d[hadoop@ambari01 yum.repos.d]$ yum repolistLoaded plugins: fast转载 2017-09-15 19:37:34 · 1463 阅读 · 0 评论 -
Ambari安装之部署本地库(镜像服务器)(二)
部署本地库(镜像服务器) (1)下载HortWorks官网上的3个库到本地(也可以在线下载,但是速度会很慢) 我们先把hortworks官网上需要下载的3个库下载到本地(这个还是需要很长时间的,当然你也可以在线下载,通过wget但是由于文件比较大,所以下载会非常慢)然后把他上传到我们的镜像服务器上。 一个是 Ambari Repositories 两个是 HDP转载 2017-09-15 19:36:32 · 1475 阅读 · 0 评论 -
Ambari安装之Ambari安装前准备(CentOS6.5)(一)
优秀博客《Ambari——大数据平台的搭建利器》 Ambari安装前准备(一)机器准备 192.168.80.144 ambari01 (部署Ambari-server和Mirror server) (分配1G,我这里只是体验过程,当然你可以分配更多或更小) 192.1转载 2017-09-15 19:35:33 · 372 阅读 · 0 评论 -
CentOS6.5下Ambari安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐)
第一步:Ambari安装之Ambari安装前准备(CentOS6.5)(一) 第二步:Ambari安装之部署本地库(镜像服务器)(二) 第三步:Ambari安装之安装并配置Ambari-server(三) 第四步:Ambari安装之部署hdp单节点集群 第五步:Ambari安装之部署3个节点的HA分布式hdp集转载 2017-09-15 19:34:03 · 653 阅读 · 0 评论 -
Flume架构以及应用介绍
在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。 (一)Flume架构介绍 1、Flume的概念 flume是分布式的日志收转载 2017-09-23 11:54:50 · 343 阅读 · 0 评论 -
深入浅出 RPC - 浅出篇
近几年的项目中,服务化和微服务化渐渐成为中大型分布式系统架构的主流方式,而 RPC 在其中扮演着关键的作用。在平时的日常开发中我们都在隐式或显式的使用 RPC,一些刚入行的程序员会感觉 RPC 比较神秘,而一些有多年使用 RPC 经验的程序员虽然使用经验丰富,但有些对其原理也不甚了了。缺乏对原理层面的理解,往往也会造成开发中的一些误用。本文分上下两篇《浅出篇》和《深入篇》,其目标就是想转载 2017-04-04 09:21:45 · 405 阅读 · 0 评论 -
深入浅出 RPC - 深入篇
《深入篇》我们主要围绕 RPC 的功能目标和实现考量去展开,一个基本的 RPC 框架应该提供什么功能,满足什么要求以及如何去实现它?RPC 功能目标RPC 的主要功能目标是让构建分布式计算(应用)更容易,在提供强大的远程调用能力时不损失本地调用的语义简洁性。为实现该目标,RPC 框架需提供一种透明调用机制让使用者不必显式的区分本地调用和远程调用,在前文《浅出篇》中给出了一种转载 2017-04-04 09:20:29 · 326 阅读 · 0 评论 -
第5章 Hadoop 2.6 Multi Node Cluster安裝指令
Hadoop Multi Node Cluster規劃如下圖,由多台電腦組成: 有一台主要的電腦master,在HDFS擔任NameNode角色,在MapReduce2(YARN)擔任ResourceManager角色有多台的電腦data1、data2、data3,在HDFS擔任DataNode角色,在MapReduce2(YARN)擔任NodeManager角色转载 2017-01-12 23:05:26 · 758 阅读 · 0 评论 -
第4章 Hadoop 2.6 Single Node Cluster 安装指令
Hadoop Single Node Cluster是只以一台机器,建立hadoop环境,您仍然可以使用hadoop命令,只是无法发挥使用多台机器的威力。 因为只有一台服务器,所以所有功能都在一台服务器中,安装步骤如下:1 安装JDK2 设定 SSH 无密码登入3 下载安装Hadoop4 设定Hadoop环境变数5 Hadoop组态档设定6 建立与格式化HDFS目录7转载 2017-01-12 23:01:54 · 490 阅读 · 0 评论 -
史上最全的机器学习资料
摘要: 机器学习牵涉的编程语言十分之广,包括了MATLAB、Python、Clojure、Ruby等等。为了让开发者更加广泛、深入地了解机器学习,云栖社区组织翻译了GitHub Awesome Machine Learning 资源,涵盖24种编程语言的机器学习的框架、库以及其他相关资料。机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、转载 2017-01-05 19:20:56 · 5980 阅读 · 0 评论 -
HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。 ③ 适转载 2016-11-26 21:31:20 · 346 阅读 · 0 评论