大数据/Hadoop/Spark/Storm/ELK
文章平均质量分 91
wangxiaoming
博客是很好的总结和记录工具,如果有问题,来不及回复,关注程序员奇点,获取我的联系方式,向我提问,也可以给我发送邮件,联系 1275801617@qq.com
展开
-
RabbitMQ 面试题
【基础类】问题一:RabbitMQ 中的 broker 是指什么?cluster 又是指什么?答:broker 是指一个或多个 erlang node 的逻辑分组,且 node 上运行着 RabbitMQ 应用程序。cluster 是在 broker 的基础之上,增加了 node 之间共享元数据的约束。问题二:什么是元数据?元数据分为哪些类型?包括哪些内容?与 cluster 相关的元数据有哪些?元数据是如何保存的?元数据在 cluster 中是如何分布的?答:在非 cluster 模式下,元数据主原创 2021-02-26 09:42:54 · 635 阅读 · 0 评论 -
Zookeeper 和 Eureka 区别
主要区别zookeeper的目标是一个分布式的协调系统,用于进行资源的统一管理,为了满足CP而进行设计。eureka的目标是一个服务注册发现系统,专门用于微服务的服务发现注册,按照满足AP而进行设计。ZookeeperZookeeper 是将数据一致性作为设计目标是 CP 的,不保证服务的可用性,当节点 Crash 宕机之后,需要进行 leader 选举,选举过程中,ZK 服务不可用。对服务注册发现来说, 对数据一致性要求没那么高,但是对可用性要求高, 如果从注册中心获取不到服务,会是很大的问原创 2020-11-26 15:13:34 · 1226 阅读 · 0 评论 -
Kafka 原理简介
Kafka 原理简介Kafka 是一种高吞吐的分布式发布订阅的消息系统,可以处理消费者规模的网站中的动作流数据,具有高性能的,持久化,多副本,横向扩展能力。https://www.cnblogs.com/sujing/p/10960832.htmlKafka 的组成结构Kafka 的基础架构图:Producer Producer 生产者,消息的生产者。kafka clusterBroker : Broker 是 kafka 的实例,每个服务器有一个或者多个 Kafka实例。Kaf原创 2020-09-01 10:55:43 · 1540 阅读 · 1 评论 -
如何在1 分钟内完成 100T 大文件的遍历?
如何快速遍历一个超大数据集 ?文件是存储在磁盘上的,文件的读写访问速度受限于磁盘的物理限。如果才能在1 分钟内完成 100T 大文件的遍历呢?磁盘存储结构磁盘是一种可持久保存,持续读写数据的存储介质。磁盘分类:机械硬盘固态硬盘机械硬盘结构机械硬盘,包含,盘片,主轴,磁头臂,主轴带动盘片高速旋转。读取数据地上,磁头臂移动到盘片的磁道上,磁头读取磁道上的数据。机械硬盘的数据是存储在磁性特质的盘片上的,因此叫做磁盘。读写数据是需要移动磁头,这样一个机械动作,可能需要花费几毫原创 2020-06-19 23:40:44 · 1360 阅读 · 0 评论 -
ID 生成器 雪花算法
想了解JVM的可以看这篇 https://mp.csdn.net/postedit/78686724我们的业务需求中通常有需要一些唯一的ID,来记录我们某个数据的标识: 某个用户的ID 某个订单的单号 某个信息的ID 看图理解详细的看代码注释 1bit:一般是符号位,不做处理 41bit:用来记录时间戳,这里可以记录69年,如果设...转载 2019-07-25 10:26:57 · 5183 阅读 · 3 评论 -
Centos 下MongoDB 集群安装
Centos 下MongoDB 集群安装架构准备三台服务器172.31.1.135172.31.1.136172.31.1.137创建目录mkdir /datamkdir /data/logmkdir /data/log/mongodb/mkdir /dat...原创 2019-07-25 10:25:38 · 298 阅读 · 0 评论 -
【深入理解Hadoop原理】HDFS1.0 与HDFS2.x 架构理解
HDFS1.0 与HDFS2.x 架构理解先说说Haoop HDFS 1.0的体系架构:HDFS1.0体系架构总体图: 上面可以看到几个组件:NameNode...原创 2019-07-25 10:30:56 · 1922 阅读 · 0 评论 -
【深入理解Hadoop原理】Hadoop 迭代器重用问题
Hadoop 迭代器重用问题开始是由于业务的问题发现最终结果与预期不符,在代码中打日志调试发现了这个问题。reduce方法的javadoc中已经说明了会出现的问题: 引用The framework calls this method for eachpair in the grouped inputs. Output values must be of the same ...原创 2019-07-25 11:23:28 · 732 阅读 · 0 评论 -
【大数据】ETL工具 Sqoop Linux 环境下安装与基本使用
Sqoop Linux 环境下安装与基本使用Sqoop安装部署Sqoop的安装和配置十分简单, 需要linux和Hadoop环境支撑,下面将linux系统进行介绍.所有安装均采用源码安装方式。系统要求LinuxJDK(1.8)Hadoop(目前使用2.7.3)安装Sqoop1.下载http://www-eu.apache.org/dist/sqoo...原创 2019-07-25 11:42:35 · 4556 阅读 · 0 评论 -
Hadoop Exception while unregistering exited with exitCode: 1 报错处理
问题现象:查看 hadoop resourcemanager.log 查看有如下异常:Application application_1508235352644_0005 failed 2 times due to AM Container for appattempt_1508235352644_0005_000002 exited with exitCode...原创 2019-08-08 10:30:46 · 777 阅读 · 0 评论 -
window 系统 linux 系统 hdfs 文件系统 相互转移 hdfs 拷贝文件到linux 本地
window 系统 linux 系统 hdfs 文件系统 相互转移eclipse 安装插件成功后: 会出现如下可以user-》右键 upload window 本地一个文件, 但是像这种要执行的jar 包 直接在hdfs 文件系统上 使用 hadoop jar 命令是无法正确执行的,上面的文件上传成功后:执行命令:hadoop fs ...原创 2019-08-22 15:13:27 · 2940 阅读 · 0 评论 -
Hadoop MapReduce Job 相关参数设置 概念介绍与理解
Hadoop MapReduce Job 相关参数设置 概念介绍与理解InputFormat:作用:将输入的文件分成 一个个split,并且将split 拆分成一个个<key,value> 作为 map的输入。使用:通过job.setInputFormatClass() 进行设置原理:InputFormat 仅有两个抽象方法:1、List<Inp...原创 2019-08-22 15:15:03 · 2631 阅读 · 0 评论 -
Spark运行过程中 NoClassDefFoundError 与 nc -lk 9999 报错问题处理
SPark运行过程中 NoClassDefFoundError 与 nc -lk 9999 报错问题处理报错如下:Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class at org.apache.spark.SparkConf$DeprecatedConfig....原创 2019-09-23 18:42:22 · 961 阅读 · 0 评论 -
Zookeeper 集群安装与ZK常用命令操作
Zookeeper 集群安装与常用命令使用JDK下载点击打开链接Zookeeper 下载点击打开链接在三台机器上安装JDK1. 在linux 上新建一个目录存放 JDK和zookeepermkdir /usr/local/software上传JDK和zookeeper2. 新建一个java 目录mkdir /usr/local/javacd /us...原创 2019-08-08 10:30:05 · 1580 阅读 · 0 评论 -
【深入理解Hadoop原理】HDFS 常用命令操作 --持续更新
HDFS 常用命令操作查寻NameNode的状态 是active 还是 standby 下面命令行nn1是一个NameNode 节点hdfs haadmin -getServiceState nn1查看HDFS的基本统计信息hadoop dfsadmin -report查看HDFS下的文件hadoop...原创 2019-07-26 11:26:58 · 713 阅读 · 0 评论 -
Ubuntu 16.04 SPARK 开发环境搭建-- 伪分布版 与新建一个Spark版本的WordCount
Ubuntu 16.04 SPARK 开发环境搭建这里首先是基于Hadoop 已经装好了情况下,安装SPARK.具体Hadoop 安装 参考:点击打开链接如果你没安装JDK 请安装,你在安装Hadoop 时候也必须安装JDK这里也稍微写点初始工作: 1.安装JDK,下载jdk-8u111-linux-x64.tar.gz,解压到/opt/jdk1.8....原创 2019-08-22 15:15:55 · 1320 阅读 · 0 评论 -
Hadoop 基本API 使用 -- 从HDFS文件系统 上读取文件
Hadoop 基本API 使用 从HDFS文件系统 上读取文件不多说 看代码:如果报错 wutils.exe 之类:请注意一定要添加这一行: System.setProperty("hadoop.home.dir", "D:\\hadoop-2.7.3");import java.io.BufferedReader; im...原创 2019-08-22 15:01:57 · 1885 阅读 · 0 评论 -
Windows下 haoop下运行程序时出现错误:Hadoop HDFS Wrong FS: hdfs:/ expected file:///
Windows下 haoop下运行程序时出现错误:Hadoop HDFS Wrong FS: hdfs:/ expected file:///贡献博客一篇:点击打开链接很多坑,暂且记录先看解决办法:无非是两种方式:1. 在 eclipse 工程 src 问价夹下加入三个文件1)hdfs-site.xml2)core-site.xml3)m...原创 2019-08-22 15:02:15 · 2304 阅读 · 0 评论 -
Java 实现HDFS API接口 与获取Active NameNode Address
Java 实现HDFS API接口接口:import java.util.List;/** * 缓存接口 * * <pre> * Modify Information: * Author Date Description * ============ =========== =======================...原创 2019-08-22 15:14:50 · 2896 阅读 · 0 评论 -
【深入理解Hadoop原理】Hadoop 读写文件源码分析
Hadoop 读文件源码分析1.客户端调用FileSystem对象读取希望读取的文件,FileSystem对象是分布式文件系统的一个实例FSDataInputStream in = fileSystem.open(file.getPath());FileSystem对象有方法: /** * Opens an FSD...原创 2019-07-25 10:30:21 · 966 阅读 · 0 评论 -
【深入理解Hadoop原理】Hadoop1.0 MapReduce工作原理 与 Hadoop 2.x Yarn 设计理验与基本架构理解
Hadoop1.0 MapReduce工作原理 与 Hadoop 2.x Yarn 设计理验与基本架构理解Hadoop1.0 提交MapReduce作业,一般分为4个实体1. 客户端 提交 MapReduce 作业2. JobTracker 协调作业的运行, JobTracker是一个Java应用程序,其主类是 JobTracker3.TaskTracker ...原创 2019-07-25 10:31:22 · 1048 阅读 · 0 评论 -
Win 10 ELK(5.4.1) 环境搭建与基本使用与 Expected one of # 解决办法
Win 10 ELK(5.4.1) 环境搭建与基本使用与 Expected one of # 解决办法ELK : elasticsearch: 将日志信息进行分割,建立索引 (依赖分词插件) logstash : 收集日志 Kibana : 展示的作用,用来显示 日志信息,可以出现很美观的图表ELK介绍:Elasticsearch是个开源分布式...原创 2019-08-08 09:25:18 · 6809 阅读 · 1 评论 -
Hadoop2.7.3下Hive 与MySQL
Hadoop2.7.3下Hive 与MySQLHadoop安装环境参考:Hadoop安装如果ubuntu安装软件,一直安装不上,参考:Storm下面有sourcelist第一步: 安装Hive1. 先安装 mySql执行命令:sudo apt-get install mysql-server期间会跳出几个窗口,稍微看一下,是用户名 密码默...原创 2019-08-22 15:15:33 · 1788 阅读 · 0 评论 -
Exception message: /bin/bash: line 0: fg: no job control Stack trace: ExitCodeException exitCode=1:
Exceptionmessage: /bin/bash: line 0: fg: no job controlStacktrace: ExitCodeException exitCode=1: /bin/bash: line 0: fg: no job control问题现象: 远程提交Hadoop 时候报错Exception message: /bin/b...原创 2017-11-03 17:00:16 · 1899 阅读 · 0 评论 -
Hadoop 改了配置文件yarn-site.xml不生效,Container killed处理办法,vi出现 found a swap处理
Hadoop 改了配置文件yarn-site.xml不生效Eclipse远程提交JOB:远程提交Hadoop Job时候:一般来说需要在用户Job 配置4个文件:core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml 但是可能遇到这个问题:在用户JOb中修改yarn-site.xml 配置:...原创 2019-08-06 11:47:33 · 5082 阅读 · 0 评论 -
Ubuntu单机版 Storm 开发环境搭建与org.apache.storm.utils.NimbusLeaderNotFoundException问题
Ubuntu单机版 Storm 开发环境搭建查看Ubuntu 安装JDK 安装Pythod 安装Zookeeper 安装ZeroMQ 安装Jzmp 安装Storm查看Ubuntu是32位还是64uname -a返回结果 ==> SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Lin...原创 2019-08-22 15:15:15 · 946 阅读 · 0 评论 -
vmare Ubuntu 下Hadoop 开发环境搭建eclipse win10 远程连接 安装与问题处理
vmare Ubuntu 下Hadoop 开发环境搭建eclipse win10 远程连接搭建和费劲,这里先踩踩坑,以后也少遇到些问题,搭建也顺利,有兴趣的, 需谨慎最近要上Hadoop 了,这里稍微总结下 hadoop 开发环境,因为不是边操作,边写博客,可能没那么细,之后有机会搭建,会重新补全,但是这里会列出安装过程中遇到都问题与解决方案vmare ubuntu 安装1、...原创 2019-08-22 15:13:58 · 1472 阅读 · 0 评论 -
Zookeeper伪分布式和HBase伪分布式安装
Zookeeper伪分布式和HBase伪分布式安装Zookeeper伪分布安装:下载地址:(http://zookeeper.apache.org/releases.html#download)1. 解压缩 zookeeper安装包:sudo tar zxvf zookeeper.tar.gz -C /usr/local2. 进入解压后的conf目录...原创 2019-08-06 11:42:58 · 1269 阅读 · 0 评论 -
【深入理解Hadoop原理】Hadoop 参数配置 详解
Hadoop 参数配置 详解一、常用端口 组件 节点 默认端口 配置 用途说明 HDFS DataNode 50010 dfs.datanode.address d...原创 2019-07-26 11:25:51 · 5888 阅读 · 0 评论 -
【大数据】新建一个map/Reduce工程实例WordCount
新建一个map/Reduce工程实例WordCount新建一个工程: 2.选择 map/reduce3.4. 会自定加载 相关jar 包:5. 代码,运行即可:import java.io.IOException;import java.util.StringTokenizer;import org.ap...原创 2019-07-26 11:30:37 · 821 阅读 · 0 评论