![](https://img-blog.csdnimg.cn/20200912170915543.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据hadoop生态组件
大数据
故明所以
清心、静思、实干、寡言。
展开
-
pip安装解决报错:WARNING: Running pip as the ‘root‘ user can result in broken permissions and conflicting
pip安装解决报错:WARNING: Running pip as the ‘root‘ user can result in broken permissions and conflicting原创 2023-03-22 10:51:11 · 14612 阅读 · 3 评论 -
解决flume的shell启停脚本不能正常运行的问题
解决flume的shell启停脚本不能正常运行的问题原创 2023-03-11 22:55:22 · 647 阅读 · 1 评论 -
kafka集群启动的shell脚本失效
kafka集群启动的shell脚本失效原创 2023-03-11 20:40:39 · 370 阅读 · 0 评论 -
关于HBase集群中的Hmaster节点刚启动就挂掉的解决方法
关于HBase集群中的Hmaster节点刚启动就挂掉的解决方法原创 2023-02-13 20:07:59 · 3393 阅读 · 1 评论 -
CentOS配置DNS重启网卡后 配置失效
CentOS配置DNS重启网卡后 配置失效原创 2022-12-06 23:54:20 · 2382 阅读 · 1 评论 -
Hive初始化报错Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.
Hive初始化报错Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.原创 2022-11-13 16:34:03 · 5571 阅读 · 0 评论 -
hadoop-3.1.3启动报错:Attempting to operate on hdfs namenode as root
hadoop-3.1.3启动报错:Attempting to operate on hdfs namenode as root原创 2022-10-31 12:49:40 · 407 阅读 · 0 评论 -
HDFS、Hbase、MySQL、Redis和hive之间的区别分析
(1)HDFS:为分布式存储提供文件系统(1)Redis:分布式缓存,基于内存并且强调缓存,支持数据持久化,支持事务操作。(2)MySQL:传统关系型数据库,注重关系,注重事务性。(3) hive:数据仓库工具,底层是mapreduce。不是数据库,不能用来做用户的交互存储1、HDFS为分布式存储提供文件系统针对存储大尺寸的文件进行优化,不需要对HDFS上的文件进行随机读写直接使用文件数据模型不灵活使用文件系统和处理框架优化一次写入,多次读取的方式2、HBase提供表状的面向列的数据原创 2020-09-22 22:41:54 · 3694 阅读 · 0 评论 -
Spark和Hadoop的异同点比较分析(很详细哦!!!)
Spark和Hadoop的异同点分析一、两者实现原理的比较二、 两者多方面的对比三、Spark和MR两者之间的详细对比分析(重点)3.1 速度3.2 容错性3.3 适用性3.4 框架和生态3.5 运行环境四、三大分布式计算框架系统(1)Spark:是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎 。(2)Hadoop:是分布式管理、存储、计算的生态系统;其中包括三大部分:HDFS(存储)、MapReduce(计算)、Yarn(资源调度)一、两者实现原创 2020-09-22 20:57:20 · 12939 阅读 · 0 评论 -
大数据开发架构——调度系统的分类解析
调度系统的分类解析一、什么是调度系统二、调度系统的两大种类1、资源调度系统2、作业调度系统三、作业调度系统的两大种类1、定时分片类作业调度系统2、DAG工作流类调度系统一、什么是调度系统调度系统,更确切地说,作业调度系统(Job Scheduler)或者说工作流调度系统(workflow Scheduler)是任何一个稍微有点规模,不是简单玩玩的大数据开发平台都必不可少的重要组成部分。除了Crontab,Quartz这类偏单机的定时调度程序/库。开源的分布式作业调度系统也有很多,比较知名的比如:oozi原创 2020-09-13 09:53:55 · 2755 阅读 · 2 评论 -
Flume之企业真实面试题(重点)
一、你是如何实现 Flume 数据传输的监控的使用第三方框架 Ganglia 实时监控 Flume。二、Flume 的 Source,Sink,Channel 的作用?你们 Source 是什么类型?1、作用(1)Source 组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy(2)Channel 组件对采集到的原创 2020-08-11 23:50:14 · 199 阅读 · 1 评论 -
Flume 数据流监控
一、Ganglia 的安装与部署1、安装 httpd 服务与 php[atguigu@hadoop102 flume]$ sudo yum -y install httpd php2、安装其他依赖[atguigu@hadoop102 flume]$ sudo yum -y install rrdtool perl-rrdtoolrrdtool-devel[atguigu@hadoop102 flume]$ sudo yum -y install apr-devel3、安装 ganglia[a原创 2020-08-11 23:41:06 · 275 阅读 · 0 评论 -
Flume 企业开发案例
目录一、复制和多路复用二、负载均衡和故障转移三、聚合一、复制和多路复用1、案例需求使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到 Local FileSystem。2、需求分析:3、实现步骤:(1)准备工作在/opt/module/flume/job 目录下创建 group1 文件夹[atguigu@hadoop102 job]$原创 2020-08-10 23:37:20 · 170 阅读 · 0 评论 -
Flume之拓扑结构
一、简单串联这种模式是将多个 flume 顺序连接起来了,从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量,flume 数量过多不仅会影响传输速率,而且一旦传输过程中某个节点 flume 宕机,会影响整个传输系统。二、复制和多路复用Flume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel 中,或者将不同数据分发到不同的 channel 中,sink 可以选择传送到不同的目的地。三、负载均衡和故障转移原创 2020-08-10 23:14:47 · 180 阅读 · 0 评论 -
Hive 实战之谷粒影音
一、 需求描述统计硅谷影音视频网站的常规指标,各种 TopN 指标:–统计视频观看数 Top10–统计视频类别热度 Top10–统计视频观看数 Top20 所属类别以及类别包含的 Top20 的视频个数–统计视频观看数 Top50 所关联视频的所属类别 Rank–统计每个类别中的视频热度 Top10–统计每个类别中视频流量 Top10–统计上传视频最多的用户 Top10 以及他们上传的观看次数在前 20 视频–统计每个类别视频观看数 Top10二、项目2.1 数据结构1、视频表原创 2020-08-08 17:43:07 · 536 阅读 · 0 评论 -
hive之企业级调优(绝对是干货!!!)
一、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。原创 2020-08-08 00:11:57 · 643 阅读 · 0 评论 -
hive之函数
目录一、系统自带的函数二、自定义函数三、自定义UDF函数开发案例一、系统自带的函数(1)查看系统自带的函数hive> showfunctions;(2)显示自带的函数的用法hive> desc function upper;(3)详细显示自带的函数的用法hive> desc function extended upper;二、自定义函数(1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。(2)当Hive提供的内置函原创 2020-08-07 22:01:26 · 235 阅读 · 0 评论 -
hive之查询(超级详细!!!)
目录一、基本查询(Select…From)1、全表和特定列查询2、列别名3、算术运算符4、常用函数5 、Limit语句二、Where语句1、比较运算符(Between/In/ Is Null)2、Like和RLike3、逻辑运算符(And/Or/Not)三、分组1、Group By语句2、Having语句四、Join语句1、等值Join2、表的别名3、内连接4、左外连接5、右外连接6、满外连接7、多表连接8、笛卡尔积9、连接谓词中不支持or5、排序1、全局排序(Order By)2、按照别名排序3、多个列排原创 2020-08-07 21:48:42 · 15552 阅读 · 3 评论 -
HDFS Federation 架构设计
目录一、当前HDFS的概况1、当前HDFS的架构2、NameNode 架构的局限性二、HDFS Federation 架构设计1、为什么采用Federation ?2、Federation架构3、Federation关键技术点4、HDFS Federation的主要优点5、HDFS Federation的不足之处三、HDFS Federation 应用思考一、当前HDFS的概况1、当前HDFS的架构当前HDFS包含两层结构: (1) Namespace 管理目录,文件和数据块:它支持常见的文件原创 2020-08-05 12:44:32 · 595 阅读 · 0 评论 -
关于Shell的企业面试真题
一、京东(1)问题1:使用Linux命令查询file1中空行所在的行号答案:[atguigu@hadoop102 datas]$ awk '/^$/{print NR}' sed.txt 5(2)问题2:有文件chengji.txt内容如下:张三 40李四 50王五 60使用Linux命令计算第二列的和并输出:[atguigu@hadoop102 datas]$ cat chengji.txt | awk -F " " '{sum+=$2} END{print sum}'原创 2020-07-28 17:54:18 · 199 阅读 · 0 评论 -
警告:MySQL-server-5.5.48-1.linux2.6.i386.rpm: 头V3 DSA/SHA1 Signature, 密钥 ID 5072e1f5: NOKEY
(1)在CentOS 7上使用rpm安装MySQL时爆出问题警告:[root@wgh soft]# rpm -ivh MySQL-server-5.5.48-1.linux2.6.i386.rpm警告:MySQL-server-5.5.48-1.linux2.6.i386.rpm: 头V3 DSA/SHA1 Signature, 密钥 ID 5072e1f5: NOKEY(2)问题原因:由于yum安装了旧版本的GPG keys造成的(3)解决方法:在命令的最后面加上 --nodeps --原创 2020-07-19 21:23:05 · 1067 阅读 · 1 评论 -
在centos7上安装使用rz/sz命令
在刚安装好的centos上使用rz上传文件,提示找不到命令:安装rz/sz命令需要在root用户下,要不然是没有权限的安装命令如下:[root@wgh ~]# yum install -y lrzsz使用rz上传文件到服务器上:[root@wgh soft]# rz使用sz下载文件到本机桌面:...原创 2020-07-19 21:09:11 · 6536 阅读 · 1 评论 -
SBT安装入坑之默认镜像编译慢
一、官网下载上传至ubuntu二、解压到指定文件夹三、进入sbt,编辑一个sbt文件,添加修改权限#vim sbt 进入sbt添加这个文件,下面为文件内容 注意路径#sudo chmod u+x sbt 把文件设置为可执行文件//文件内容如下:#!/bin/bashSBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"java $SBT_OPTS -jar /u原创 2020-06-09 22:35:23 · 514 阅读 · 0 评论 -
ubuntu vi不能正常使用上下左右方向键
执行以下两条命令:[wgh@WGHmaster]$ sudo apt-get remove vim-common[wgh@WGHmaster]$ sudo apt-get install vim原创 2020-06-09 15:16:16 · 869 阅读 · 1 评论 -
Ubuntu系统非法关机后终端中字体的颜色变成了白色
一、问题描述:非法关机后,终端中的字体就一直只有白色,看着非常难受!!!二、解决办法:(1)在终端输入:cp /etc/skel/.bashrc ~/(2)打开并修改.bashrc文件:gedit .bashrc直接在.bashrc文件中找“#force_color_prompt=yes”,然后把前面的“#”去掉(4)终端中输入source .bashrc让其生效即可source .bashrc...原创 2020-06-08 17:49:38 · 581 阅读 · 0 评论 -
在Ubuntu上安装Intellij IDEA并创建桌面快捷方式
运行环境:环境信息版本号Ubuntu16.04Intellij IDEA2017.1.6一、首先从官网获取安装包官网链接:https://www.jetbrains.com/idea/download/#section=windows二、接下来开始命令行解压安装2.1 解压缩gzip包cd /usr/localsudo mkdir ideasudo tar -zxvf ~/下载/ideaIU-2017.1.6.tar.gz -C /usr/local原创 2020-06-08 09:18:55 · 5931 阅读 · 5 评论 -
Spark Streaming + Kafka Integration Guide的位置策略和消费策略
位置策略和消费策略一、LocationStrategies (位置策略)二、ConsumerStrategies(消费策略)三、Creating an RDD(创建RDD)四、Obtaining Offsets(获取偏移)五、Storing Offsets(存储偏移量)六、Checkpoints(检查点)七、Kafka itself(Kafka自身)八、Your own data store(自己的数据存储)一、LocationStrategies (位置策略)The new Kafka consume原创 2020-05-30 20:52:11 · 496 阅读 · 0 评论 -
实时推荐服务建设
一、实时推荐服务实时计算与离线计算应用于推荐系统上最大的不同在于:实时计算推荐结果应该反映最近一段时间用户近期的偏好,离线计算推荐结果则是根据用户从第一次评分起的所有评分记录来计算用户总体的偏好。用户对物品的偏好随着时间的推移总是会改变的。比如一个用户 u 在某时刻对电影p 给予了极高的评分,那么在近期一段时候,u 极有可能很喜欢与电影 p 类似的其他电影;而如果用户 u 在某时刻对电影 q 给予了极低的评分,那么在近期一段时候,u 极有可能不喜欢与电影 q 类似的其他电影。所以对于实时推荐,当用户原创 2020-05-29 22:31:43 · 840 阅读 · 0 评论 -
协同过滤算法(用于推荐)
协同过滤推荐算法是诞生最早,并且较为著名的推荐算法,主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是:基于用户的协同过滤算法(user-based collaboratIve filtering)基于物品的协同过滤算法(item-based collaborative filtering)简单的说就是:物以类聚,人以群分。下面我们将分别说明这两类推荐算法的原理和实现方法。一、基于用原创 2020-05-28 09:58:56 · 1413 阅读 · 1 评论 -
kafka Streams基本概念
一、概述1.1 kafka StreamsKafka Streams。Apache Kafka开源项目的一个组成部分。是一个功能强大,易于使用的库。用于在Kafka上构建高可分布式、拓展性,容错的应用程序。1.2 Kafka Streams特点(1)功能强大高扩展性,弹性,容错(2)轻量级无需专门的集群 ,一个库,而不是框架(3)完全集成100%的Kafka 0.10.0版本兼容易于集成到现有的应用程序(4)实时性毫秒级延迟并非微批处理窗口允许乱序数据允许迟到数据原创 2020-05-22 16:57:51 · 3096 阅读 · 0 评论 -
Kafka producer拦截器(interceptor)
一、拦截器原理Producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化控制逻辑。对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求,比如修改消息等。同时,producer允许用户指定多个interceptor按序作用于同一条消息从而形成一个拦截链(interceptor chain)。Intercetpor的实现接口 是org.apache.kafka.clie原创 2020-05-22 12:08:20 · 469 阅读 · 0 评论 -
Kafka API 详细示例
Kafka API一、环境准备二、Kafka生产者Java API2.1 创建生产者(过时的API)2.2 创建生产者(新API)2.3 创建生产者带回调函数(新API)2.4 自定义分区生产者三、Kafka消费者Java API一、环境准备(1)在eclipse中创建一个java工程(2)在工程的根目录创建一个lib文件夹(3)解压kafka安装包,将安装包libs目录下的jar包拷贝到工程的lib目录下,并buildpath。(4)启动zk和kafka集群,在kafka集群中打开一个消费者原创 2020-05-22 11:45:25 · 271 阅读 · 0 评论 -
Kafka工作流程分析
Kafka工作流程分析一、Kafka生产过程分析1.1 写入方式1.2 分区(Partition)1.3 副本(Replication)1.4 写入流程二、Broker 保存消息2.1 存储方式2.2 存储策略2.3 Zookeeper存储结构三、Kafka消费过程分析3.1 消费模型3.2 高级API3.3 低级API3.4 消费者组3.5 消费方式3.6 消费者组案例一、Kafka生产过程分析1.1 写入方式producer采用推(push)模式将消息发布到broker,每条消息都被追加(appe原创 2020-05-21 22:09:40 · 310 阅读 · 0 评论 -
Redis高性能内存数据库
一、什么是Redis?Redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。与Memcached一样,为了保证效率,数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。Redis 是一个高性能的key-value数原创 2020-05-21 10:32:46 · 329 阅读 · 0 评论 -
MemCached缓存技术
MemCached一、什么是MemCached二、为什么要用MemCached?三、MemCached的基本原理和体系结构四、MemCached数据的存储方式和过期4.1 数据存储方式:Slab Allocation即:`按组分配内存`4.2 数据过期方式五、MemCached安装与部署六、操作MemCached6.1 Telnet方式(命令行方式)6.2 Java客户端方式七、MemCached的路由算法7.1 求余数hash算法7.2 一致性hash算法八、MemCached的主主复制和HA8.1 Me原创 2020-05-20 22:12:39 · 599 阅读 · 0 评论 -
Kafka概述与集群部署
Kafka概述与集群部署一、Kafka基本概念1.1 Kafka是什么1.2 消息队列内部实现原理1.3 为什么需要消息队列1.4 Kafka架构1.5 分布式模型二 、Kafka集群部署2.1 环境准备2.1.1 集群规划2.1.2 jar包下载2.2 Kafka集群部署2.3 Kafka命令行操作一、Kafka基本概念1.1 Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。(1)Apache Kafka是一个开源消息系统,由Scala写成。是原创 2020-05-19 23:41:24 · 380 阅读 · 0 评论 -
Elasticsearch之 IK 分词器
针对词条查询(TermQuery),查看默认中文分词器的效果:[itstar@bigdata111 elasticsearch]$ curl -XGET 'http://bigdata111:9200/_analyze?pretty&analyzer=standard' -d '中华人民共和国'{ "tokens" : [ { "token" : "中", "start_offset" : 0, "end_offset" : 1, "原创 2020-05-19 12:00:15 · 1192 阅读 · 1 评论 -
Elasticsearch之Java API操作
Java API操作一、API基本操作1.1 操作环境准备1.2 获取Transport Client1.3 创建索引1.4 删除索引1.5 新建文档(源数据json串)1.6 新建文档(源数据map方式添加json)1.7 新建文档(源数据es构建器添加json)1.8 搜索文档数据(单个索引)1.9 搜索文档数据(多个索引)1.10 更新文档数据(update)1.11 更新文档数据(upsert)1.12 删除文档数据(prepareDelete)二、条件查询QueryBuilder2.1 查询所有(原创 2020-05-19 00:02:25 · 556 阅读 · 0 评论 -
Elasticsearch之安装与配置
三种安装方式:单机版head插件安装集群搭建一、安装包下载Elasticsearch官网: https://www.elastic.co/products/elasticsearch二、安装Elasticsearch(单节点Linux环境)(1)解压elasticsearch-5.6.1.tar.gz到/opt/module目录下[itstar@hadoop102 software]$ tar -zxvf elasticsearch-5.6.1.tar.gz -C /opt/modu原创 2020-05-18 09:10:19 · 300 阅读 · 0 评论 -
Elasticsearch之基础概念
一、什么是搜索百度:我们比如说想找寻任何的信息的时候,就会上百度去搜索一下,比如说找一部自己喜欢的电影,或者说找一本喜欢的书,或者找一条感兴趣的新闻(提到搜索的第一印象)。百度 != 搜索(1)互联网的搜索:电商网站,招聘网站,新闻网站,各种app(2)IT系统的搜索:OA软件,办公自动化软件,会议管理,日程管理,项目管理。搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要搜索的关键字,然后就期望找到这个关键字相关的有些信息。二、用数据库做搜索...原创 2020-05-18 08:21:50 · 314 阅读 · 0 评论