itcats_cn的博客

学而不思则罔,思而不学则殆

ElasticSearch-head安装配置教程

安装ElasticSearch图形管理界面ElasticSearch-head 《elasticsearch-head》Github地址 安装之前做一些准备工作,将itcats用户切换到root用户 su echo "itcats ALL = (root) NOPASSWD:...

2019-04-27 19:41:49

阅读数 34

评论数 0

ElasticSearch入门

全文搜索属于最常见的需求,开源的 Elasticsearch是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。 ElasticSearch 的底层是开源库 Lucene,Elasticsearch 是 Lucene 的封...

2019-04-27 16:55:54

阅读数 42

评论数 0

ElasticSearch单机/集群搭建教程

本文将介绍ElasticSearch单机版与集群版的安装与配置,ElasticSearch依赖JRE,注意机器是否安装JDK8【最低版本要求就是JDK8】,且JDK环境变量是否已配置完成 java -version echo $JAVA_HOME 一、下载 《从官网下载Elasti...

2019-04-26 00:51:02

阅读数 53

评论数 0

Sqoop快速入门【导入数据到HDFS与导出数据到数据库】

1、Sqoop概述 Sqoop - “SQL到Hadoop和Hadoop到SQL” sqoop是apache旗下一款"Hadoop和关系数据库服务器之间传送数据"的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;...

2019-04-23 17:15:50

阅读数 60

评论数 0

StringUtils中 isNotEmpty 和isNotBlank的区别【Java字符串判空】

StringUtils方法的操作对象是java.lang.String类型的对象,是JDK提供的String类型操作方法的补充,并且是null安全的(即如果输入参数String为null则不会抛出NullPointerException,而是做了相应处理。 例如,如果输入为null则返回也是nu...

2019-04-20 17:06:33

阅读数 23

评论数 0

Flume快速入门

前言 在一个完整的离线大数据处理系统中,除了HDFS+MapReduce+Hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在Hadoop生态体系中都有便捷的开源框架,如图所示: 图:典型大规模离线数据处理平台 一、Flume日...

2019-04-20 13:39:33

阅读数 19

评论数 0

HBase原理详解【Master、Region Server内部机制、Zookeeper、读写数据流程、hbase:meta表】

一、HBASE运行原理 组件结构图 二、各组件的职责 2.1 MASTER职责 1、管理HRegionServer,实现其负载均衡。 2、管理和分配HRegion,比如在HRegion split时分配新的HRegion;在HRegion Server退出时迁移其负责的HRegion到...

2019-04-18 21:25:31

阅读数 28

评论数 0

HBase快速入门【集群安装配置、读写过程、表模型、命令行、API】

HBase官方文档地址:http://hbase.apache.org 一、简单看看HBase与MySQL、Hive的区别 二、什么是HBase HBASE是一个数据库----可以提供数据的实时随机读写 HBase与MySQL、Oralce、DB2、SQLServer等关系...

2019-04-18 00:42:44

阅读数 41

评论数 0

用生活举例看Java多线程活跃性问题【死锁、饥饿、活锁】

死锁:吃饭问题,5个人每人只有一双筷子,只有让另外一个人分享他自己的筷子给自己,自己才能吃到饭。若存在这样的情况,若每个人都不把自己的筷子借给别人用餐,每个人都抓着自己手中的筷子不放,那么每个人都吃不上饭饿死了。也就是说A线程拥有B线程所需的资源,B线程也有A线程所需资源,但两者都不把资源分享出来...

2019-04-12 18:07:21

阅读数 18

评论数 0

数据结构——哈希表

一、从一道Leetcode题目认识哈希表 387.字符串中的第一个唯一字符 因为该字符串只包含小写字母,即只存在a-z 26个小写字母,我们将其a-z对应到数组0-25索引的位置,出现一次,index+1 代码编写: class Solution { public int f...

2019-04-12 18:06:14

阅读数 17

评论数 0

深入理解Hive【Hive架构介绍、安装配置、Hive语法介绍】

一、Hive的产生背景 1、MapReduce编程十分繁琐 2、传统RDBMS人员的需要 Hive由Facebook开源项目: 1、用于解决海量结构化日志的数据统计问题 2、构建在Hadoop之上的数据仓库 3、Hive提供SQL查询语言:HQL 4、底层支持多种不同的执行引擎【...

2019-04-10 22:23:49

阅读数 42

评论数 0

Hive文件格式之textfile,sequencefile和rcfile的使用与区别详解

hive在创建表时默认存储格式是textfile,或者显示自定义的stored as textfile。 很多人知道hive常用的存储格式有三种,textfile,sequencefile,rcfile,但是却说不清楚这三种格式的干什么用的,本质有有什么区别?适合什么时候用?为什么hive会有多...

2019-04-10 13:56:00

阅读数 34

评论数 0

Linux安装和配置MySQL5.7【修改密码、修改字符集等配置】

安装配置MySQL ,看这篇文章就够了。 本文包括mysql安装,默认密码获取与修改,修改MySQL默认编码字符集,防火墙关闭 CentOS6、CentOS7均可用 一、下载和安装mysql源 先下载 mysql源安装包 [root@localhost ~]# wget https...

2019-04-09 15:19:32

阅读数 20

评论数 0

MapReduce词频统计【自定义复杂类型、自定义Partitioner、NullWritable使用介绍】

一、MapReduce1.0运行模型 二、MapReduce编程模型之执行步骤 1、准备map处理的输入数据 2、交给Mapper进行处理 3、Shuffle【规则可以自己控制】 4、Reduce处理[合并、归并] 5、输出 MapReduce处理流程 InputFor...

2019-04-08 16:42:05

阅读数 40

评论数 0

Yarn框架深入理解【Yarn集群配置】

一、Yarn框架产生的背景与原因 我们都知道Hadoop诞生的目标是为了支持十几台机器的搜索服务,但是随着数据的增加,数据的可用性也是一个待解决的问题。但是Hadoop框架的自身问题限制了集群的发展。 首先是,JobTracker和NameNode的单点问题,严重制约了集群的扩展和可靠性。 ...

2019-04-08 10:37:17

阅读数 64

评论数 0

MapReduce工作流程超详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太清楚,同时MapReduce1.0和MapReduce2.0在网上有很多人混淆。 MapReduce1.0运行模型 ...

2019-04-08 00:51:00

阅读数 67

评论数 0

Scala中的reduceLeft,reduceRight,foldLeft,foldRight方法

scala中集合类iterator特质的化简和折叠方法c.reduceLeft(op)这样的调用将op相继应用到元素,如: eg: val a = List(1,7,2,9) val a1 = a.reduceLeft(_ - _)// ((1-7) - 2) - 9 = -17 ...

2019-04-07 13:49:36

阅读数 19

评论数 0

Scala学习笔记【从入门到放弃】

一、关于Scala安装 https://www.scala-lang.org/download/ 如果你是Java程序员,想学习Scala,请看官网提供的快速入门: https://docs.scala-lang.org/tutorials/scala-for-java-programm...

2019-04-05 00:36:29

阅读数 56

评论数 0

HDFS 原理详解【读写数据流程、NameNode与DataNode工作机制、checkpoint】

目录 HDFS的工作机制 概述 HDFS 写数据流程 HDFS 读数据流程 NameNode的工作机制 NameNode的职责 元数据的管理 元数据的checkpoint DataNode的工作机制 观察验证DataNode功能 HDFS的工作机制 工作机制的学习主要是为...

2019-04-04 20:07:20

阅读数 150

评论数 0

Hadoop核心组件之HDFS详解【运行机制、安装、操作与实战、NameNode高可用】

一、Hadoop的3个核心组件: 分布式文件系统:HDFS——实现将文件分布式存储在很多的服务器上 分布式运算编程框架:MapReduce——实现在很多机器上分布式并行运算 分布式资源调度平台:YARN——帮用户调度大量的MapReduce程序,并合理分配运算资源 二、HDFS整体运行...

2019-04-03 17:29:55

阅读数 104

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭