hadoop
lucasmaluping
这个作者很懒,什么都没留下…
展开
-
Flink读Hbase
package tmpimport java.utilimport org.apache.flink.api.scala._import org.apache.flink.configuration.Configurationimport org.apache.flink.streaming.api.functions.source.{RichSourceFunction, SourceFunction}import org.apache.flink.streaming.api.scala.{D原创 2021-05-20 15:54:05 · 652 阅读 · 0 评论 -
大数据常用开源框架
转自:数据社主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考。目录系统平台 (Hadoop、CDH、HDP)监控管理 (CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle)文件系统 (HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio)资源调度 (YARN、Mesos原创 2021-01-25 09:48:46 · 1042 阅读 · 0 评论 -
yarn ui
我们安装完Yarn后,可以在浏览器中通过http://master:8088来访问Yarn的WEB UI,如下图:我们详细解释上图中标记为1(也就是cluster)和2(也就是Nodes)两个界面中和资源有关的信息对上面7个字段信息进行解释:1.Active Nodes:表示Yarn集群管理的节点的个数,其实就是NodeManager的个数,我们集群有2个NodeManager2.Vc...原创 2020-04-27 13:05:14 · 312 阅读 · 0 评论 -
secureCRT sftp常用命令
securecrt 按下ALT+P就开启新的会话 进行ftp操作。输入:help命令,显示该FTP提供所有的命令pwd: 查询linux主机所在目录(也就是远程主机目录)lpwd: 查询本地目录(一般指windows上传文件的目录:我们可以通过查看”选项“下拉框中的”会话选项“,如图二:我们知道本地上传目录为:D:/我的文档)ls: 查询连接到当前linux主机所在目录有哪些文件lls:...原创 2020-03-02 12:08:18 · 1068 阅读 · 0 评论 -
Kafka机制
TopicTopic是Kafka数据写入操作的基本单元,可以指定副本一个Topic包含一个或多个Partition,建Topic的时候可以手动指定Partition个数,个数与服务器个数相当每条消息属于且仅属于一个TopicProducer发布数据时,必须指定将该消息发布到哪个TopicConsumer订阅消息时,也必须指定订阅哪个Topic的信息Kafka中的Message是以to...原创 2019-12-10 15:13:20 · 522 阅读 · 0 评论 -
HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系...原创 2019-12-05 17:53:20 · 235 阅读 · 0 评论 -
Mapreduce和YARN
Hadoop 的最常见用法之一是 Web 搜索。虽然它不是唯一的软件框架应用程序,但作为一个并行数据处理引擎,它的表现非常突出。Hadoop 最有趣的方面之一是 Map and Reduce 流程,它受到Google开发的启发。这个流程称为创建索引,它将 Web爬行器检索到的文本 Web 页面作为输入,并且将这些页面上的单词的频率报告作为结果。然后可以在整个 Web 搜索过程中使用这个结果从已定义...原创 2019-12-05 17:36:01 · 128 阅读 · 0 评论 -
YARN
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处.YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,什么是JobT...原创 2019-12-05 15:44:31 · 152 阅读 · 0 评论 -
Hadoop的几个名词Namenode、Datanode、Jobtracker、Tasktracke理解
hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个.SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondary NameNode(运行在单独的物理机器上)和 NameNode 运行在不同的机器上。...原创 2019-12-05 14:56:08 · 717 阅读 · 0 评论 -
sqoop
一、概述sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。核心的功能有两个:导入、迁入导出、迁出导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,Hiv...原创 2019-11-29 14:36:39 · 291 阅读 · 0 评论 -
hadoop的shuffle机制
hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。首先看下这张图,就能了解shuffle所处的位置。图中的partitions、copy phase、sort phase所代表的就是shuffle的不同阶段。 shuffle阶段又可以分为Map端的shuffle和Reduce端...原创 2019-10-29 23:36:07 · 946 阅读 · 0 评论 -
lucene
倒排索引:Lucene是一套用于全文检索和搜寻的开源程序库,由Apache软件基金会支持和提供Lucene提供了一个简单却强大的应用程序接口(API),能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟的免费开放源代码工具Lucene并不是现成的搜索引擎产品,但可以用来制作搜索引擎产品官网:http://lucene.apache.org/Lucen...原创 2019-10-28 10:57:10 · 507 阅读 · 0 评论 -
安装Redis 4.0.10集群
集群原理redis-cluster架构图 所有的redis节点彼此互联(PING-PONG机制),内部使用二进制协议优化传输速度和带宽。 节点的fail是通过集群中超过半数的节点检测失效时才生效。 客户端与redis节点直连,不需要中间proxy层.客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可。 redis-cluster把所有的物理节点...原创 2019-10-26 00:41:33 · 471 阅读 · 0 评论 -
redis
1.为什么使用redis?redis是一种典型的no-sql 即非关系数据库 像python的字典一样 存储key-value键值对 工作在memory中所以很适合用来充当整个互联网架构中各级之间的cache 比如lvs的4层转发层 nginx的7层代理层尤其是lnmp架构应用层如php-fpm或者是Tomcat到mysql之间 做一个cache 以减轻db的压力因为有相当一部分的...原创 2019-10-25 09:17:01 · 359 阅读 · 0 评论 -
storm-v2 wordcount
Apache Storm WordCount程序编写-程序运行的整体流程梳理Apache Storm WordCount程序编写-创建工程及介绍Spout的三个方法创建maven工程,导入依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM...原创 2019-10-24 11:25:25 · 247 阅读 · 0 评论 -
storm-v1
Storm介绍Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Stor...原创 2019-10-21 22:07:15 · 490 阅读 · 0 评论 -
springboot整合kafka
提前启动zk集群,一般写一个脚本整体启动,kafka,并且创建一个Topicbin/kafka-topics.sh --create --zookeeper hdp-1:2181 --replication-factor 1 --partitions 1 --topicanimal确保你的kafka能够访问,如果访问不了,需要打开外网访问。config/server.properti...原创 2019-10-15 22:10:39 · 375 阅读 · 0 评论 -
log4j配置文件
添加依赖:<!-- https://mvnrepository.com/artifact/log4j/log4j --><dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>1.2....原创 2019-10-15 21:40:00 · 917 阅读 · 0 评论 -
java代码获取kafka数据上传到hdfs中
1.java代码从kafka获取数据poll方法KafkaConsumer.pollpackage com.zpark.onekafka;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.F...原创 2019-10-15 14:43:20 · 1106 阅读 · 0 评论 -
kafka
1.kafka介绍:Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。Kafka主要设计目标如下:以时间复杂...原创 2019-10-14 15:36:09 · 1160 阅读 · 0 评论 -
将项目打包在linux上运行出现的问题解决方案
1、无法登录因为在SpringBoot项目中的MyBatis配置中设置的数据库的地址为localhost,需改成安装mysql的主机的IP地址2、本地无法连接远程服务器(Host is not allowed to connect to this MySQL server)解决办法由于当前的root用户限制在当前的内网ip内访问的,需要修改他的访问域mysql> use m...原创 2019-10-10 11:08:33 · 546 阅读 · 0 评论 -
CentOS7 永久修改系统时间
安装在虚拟机上的CentOS7的时间分为系统时间和硬件时间。二者都修改,重启系统(init 6 )才会永久生效。修改步骤如下查看当前系统时间 date修改当前系统时间 date -s "2018-2-22 19:10:30查看硬件时间 hwclock --show修改硬件时间 hwclock --set --date "2018-2-22 19:10:30"同步系统时间和硬件时间 h...原创 2019-10-09 19:04:26 · 697 阅读 · 0 评论 -
Nginx安装配置
安装make:yum -y install gcc automake autoconf libtool make安装g++:yum install gcc gcc-c++安装opensslyum -y install openssl openssl-devel安装PCRE库cd /appstar -zxvf pcre-8.39.tar.gzcd pcre-8.3...原创 2019-10-09 14:13:36 · 1140 阅读 · 0 评论 -
flume采集文件到HDFS(跟踪文件内容)
采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs如果要做离线分析就放到hdfs中,如果做实时分析就放kafka中根据需求,首先定义以下3大要素采集源,即source——监控文件内容更新 : exec ‘tail -F file’ 下沉目标,即sink——HDFS文件系统 : hdfs sink Source和s...原创 2019-10-08 21:11:39 · 1390 阅读 · 0 评论 -
flume配置文件(跟踪文件夹)
配置文件:配置文件的在文章中说明配置三大组件:sources、sinks、channelssources:sinks:channels:其中ag1为整体配置信息的名字,可以配置多个如:ag2.sources ag3.....#spooldir:flume中自带的读取目录的source,只要出现新文件就会被读走#定义三大组件的名称ag1.sources = sourc...原创 2019-10-08 13:09:29 · 1240 阅读 · 0 评论