Bigdata
在屋顶听歌
Stay Focused And Work Hard !!!
展开
-
开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)
原文链接:开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)转载 2020-02-20 17:17:06 · 1040 阅读 · 0 评论 -
大数据经典学习路线(及供参考)
注:转自 大数据经典学习路线(及供参考)1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力:熟练使用linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;学完此阶段可解决的现实问题:搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服转载 2017-08-08 23:31:39 · 5734 阅读 · 0 评论 -
初识Hadoop
一、Hadoop是什么? 1、 面向大数据处理 这里的大数据是个相对的说法,例如这些数据运用传统的方法难以快速地处理一般便可称为大数据。2、 擅长离线数据分析 Hadoop可以处理大规模数据集,包括结构化数据、非结构化数据和半结构化数据, 但Hadoop是按照批量处理系统来设计的,这也就限制了它的反应速度。 阻碍Hadoop实现实时分析的主要有两点:原创 2017-02-16 00:02:51 · 370 阅读 · 0 评论 -
如何高效的阅读hadoop源代码?
注:转自 如何高效的阅读hadoop源代码? 个人谈谈阅读hadoop源代码的经验。首先,不得不说,hadoop发展到现在这个阶段,代码已经变得非常庞大臃肿,如果你直接阅读最新版本的源代码,难度比较大,需要足够的耐心和时间,所以,如果你觉得认真一次,认真阅读一次hadoop源代码,一定要有足够的心理准备和时间预期。其次,需要注意,阅读Hadoop源代码的效率,因人而异转载 2017-09-28 23:25:19 · 203 阅读 · 0 评论 -
YARN应用场景、原理与资源调度
注:转自董西成的PPT,本文主要是通过PPT整理出来,具体文章的链接没有找到前言:Yarn 是什么? Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和转载 2017-09-29 12:40:42 · 2108 阅读 · 0 评论 -
修改主机名与配置ssh通过主机名进行远程登录
具体步骤如下所示: 1、 vi /etc/hosts 2、vi /etc/hostname 3、vi /etc/sysconfig/network 4、需要重启服务器 reboot5、分别在要连接的linux服务器上设置ip和hostname的映射 6、这样直接通过ssh hostname就可以远程登录 同一个域名可以配置多个对应的ip(具体原理有待深究)原创 2016-12-03 17:52:08 · 14184 阅读 · 2 评论 -
Hbase技术详细学习笔记
注:转自 Hbase技术详细学习笔记 最近在逐步跟进Hbase的相关工作,由于之前对Hbase并不怎么了解,因此系统地学习了下Hbase,为了加深对Hbase的理解,对相关知识点做了笔记,并在组内进行了Hbase相关技术的分享,由于Hbase涵盖的内容比较多,因此计划分享2期,下面就是针对第一期Hbase技术分享整体而成,第一期的主要内容如下:一、Hbase介绍二、Hbase的Region介绍三、...转载 2018-03-21 14:53:16 · 1213 阅读 · 1 评论 -
Phoenix 快速入门
一、Phoenix 介绍:Phoenix 操作hbase有两种方式,创建表,创建视图。 区别如下: 创建表的话,就可以对HBase进行插入,查询,删除操作。 视图的话,一般就只可以进行查询操作。 虽然看起来,表的功能,比视图更强大一些。但是就像是mysql等关系型数据库 一样,删除表操作,会将表删掉。但是删除视图操作,却不会影响原始表的结构。 因为使用phoenix 创建...原创 2017-11-07 21:00:54 · 5535 阅读 · 1 评论 -
Hive查看是外部表还是内部表
注:转自https://blog.csdn.net/qq_31382921/article/details/53083201----------------------------------------我知道的有两个方法: 第一种方法是 进入hive,执行 describe extended tablename; 查看表的详细信息。 如果是外部表,在详细信息的最后一行,会输出 tableType...转载 2018-03-28 15:54:33 · 8675 阅读 · 2 评论 -
查看Hbase指定表所占空间
一、操作环境ambari 2.4.3 + hdp 2.5.3 + hbase 1.1.2 + phoenix4.7 + kerberos + centos6.9二、通过Hdfs 命令反推指定表所占空间大小 如查看T_PERSON_N对应的hbase表所占大小[root@hdp14 ~]# hdfs dfs -du -h /apps/hbase/data/data/default/...原创 2018-07-13 17:39:05 · 12670 阅读 · 0 评论 -
Hadoop集群datanode磁盘不均衡的解决方案
原文转自:Hadoop集群datanode磁盘不均衡的解决方案一、引言:Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。二、问题:因业务需要搭建...转载 2018-08-17 11:13:39 · 2441 阅读 · 0 评论 -
HDFS中datanode节点block损坏后的自动恢复过程
注:转自 HDFS中datanode节点block损坏后的自动恢复过程相关参数说明dfs.blockreport.intervalMsec :datanode向namenode报告块信息的时间间隔,默认6小时datanode日志中记录如下:dfs.datanode.directoryscan.interval:datanode进行内存和磁盘数据集块校验,更新内存中的信息和磁盘中...转载 2018-10-09 11:23:58 · 1399 阅读 · 0 评论 -
终于有人把中台说清楚了
来源:边缘计算社区(ID:edgewnet)最近朋友圈被中台刷屏了,那么今天我们来说说中台!注:笔者认为本文干货在白话数据中台部分目录一、缘起二、芬兰游戏公司Supercell三、阿里中台四、白话数据中台五、滴滴中台六、总结一、缘起 百度指数搜索“中台”,可以发现,中台一词前几年几乎都没有搜索,反倒是今年5月21号开始蹭蹭往上涨!百度指数...转载 2019-07-14 11:25:43 · 453 阅读 · 0 评论 -
Hdp + Ambari 本地源安装
一、安装虚拟服务器(VM12中安装centos7) Hdpm (先安装一台服务器,后面再通过克隆的方式进行服务器的复制)二、安装jdk 1. 下载jdk1.8安装包 2. 将文件传到指定目录 jdk-8u121-linux-x64.tar.gz 3. 解压文件 tar -zxvf jdk-8u121-linux-x64.tar.gz 4.原创 2017-06-19 23:56:07 · 8064 阅读 · 2 评论 -
Hadoop之HDFS的操作命令(二)
Hadoop之HDFS命令可参考如下链接: Hadoop文件系统shell Hadoop文件系统shell官方文档 HDFS常用命令大集:1、put Usage: hdfs dfs -put <localsrc> ... <dst>Copy single src, or multiple srcs from local file system to the destination file原创 2017-03-01 11:43:40 · 709 阅读 · 0 评论 -
Hadoop之MapReduce的partition 浅析(四)
注:转载之>>>http://www.iteye.com/topic/1133851、http://blog.csdn.net/xw13106209/article/details/6912069和http://www.aboutyun.com/thread-7104-1-1.html Hadoop里面的MapReduce编程模型,非常灵活,大部分环节我们都可以重写它的API,来灵活定制我们自己的转载 2017-03-17 10:14:06 · 775 阅读 · 0 评论 -
Hadoop之HDFS的Java Interface(三)
HDFS中JAVA API的使用http://www.cnblogs.com/liuling/p/2013-6-17-01.html转载 2017-02-13 10:19:40 · 410 阅读 · 0 评论 -
Hadoop之HDFS的读写流程(四)
读取过程:上图解说一: 1、使用HDFS提供的客户端开发库,向远程的NameNode发起RPC请求; 2、NameNode会视情况返回文件的部分或全部block列表,同时返回的block所对应的的datanode地址信息; 3、Client会就近选取对应的block,若该block与客户端在同一个dataNode,则就相当于读原创 2017-02-13 10:34:27 · 1372 阅读 · 0 评论 -
Hadoop之Yarn学习(一)
一、Yarn 是什么? Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器, 它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和 数据共享等方面带来了巨大好处。 YARN的基本思原创 2017-02-15 23:57:34 · 598 阅读 · 0 评论 -
Hadoop之HDFS初步认识(一)
Hadoop的知识架构图如下所示:一、HDFS是什么? 1、HDFS是Hadoop生态圈中的分布式文件存储系统,主要是来源于Google 的GFS论文; 全称:Hadoop Distributed File System。 2、易于扩展的分布式文件系统。 3、运行在大量普通廉价机器上,提供容错机制。原创 2017-02-10 10:47:15 · 427 阅读 · 0 评论 -
搭建Eclipse运行hadoop案例的环境
Eclipse 运行Hadoop的案例目前我尝试的是如下三种,在Eclipse上对本地文件进行操作;在Eclipse上对远程的Hadoop文件进行操作;将eclipse中的文件打包成jar包通过shell命令运行。 下面分别对这两种方式进行描述:**基本环境的准备**1、JDK,Eclipse的安装在这里就不重复说明了。2、本人运行的环境是 win10 ,Eclipse Version:原创 2017-02-25 00:53:55 · 745 阅读 · 0 评论 -
Hadoop 伪分布式的快速搭建
一、准备Linux环境 1.0安装虚拟机 1.1修改主机名 可参照如下链接 修改主机名与配置ssh通过主机名进行远程登录二、处理防火墙查看防火墙状态service iptables status关闭防火墙service iptables stop查看防火墙开机启动状态chkconfig iptables --list关闭防火墙开机启动chkconfig ipt...原创 2017-02-22 22:49:39 · 443 阅读 · 2 评论 -
Hadoop之MapReduce运行原理(一)
一. Hadoop的知识架构图如下所示:二、MapReduce 的基本概念 1)MapReduce是什么? MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 相对于Hadoop框架来说,其最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。 MapReduce把任务分为 map(映射)阶段和r原创 2017-03-03 00:33:31 · 11008 阅读 · 0 评论 -
Eclipse关联Hadoop源码
一、获取源码 1、可通过下面的地址下载 hadoop-2.7.2-src.tar.gzhadoop源码下载链接 2、将hadoop源码解压(不建议解压到带有中文的目录下)二、安装maven 与 protoc 1、下载 apache-maven-3.0.3.zip 2、配置maven MVN_HOME:D:\LinkCM\apache-maven-3.0.3 Path:D:原创 2017-02-27 00:33:21 · 625 阅读 · 0 评论 -
Hadoop之MapReduce的Combiner详解(三)
先直接上代码public class WordCount { public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private原创 2017-03-14 00:39:08 · 1178 阅读 · 0 评论 -
Hadoop之MapReduce的程序开发(二)---WordCount
源代码程序 import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Int转载 2017-03-01 17:58:45 · 447 阅读 · 0 评论