hadoop生态组件
文章平均质量分 56
MatrixSparse
想成为技术帝的耿直boy
展开
-
Apache Flink 实验: 如何计算实时热门商品
目录Apache Flink 实验: 如何计算实时热门商品本实验目标实验案例介绍数据准备编写程序创建模拟数据源本实验目标如何基于 EventTime 处理,如何指定 Watermark如何使用 Flink 灵活的 Window API何时需要用到 State,以及如何使用如何使用 ProcessFunction 实现 TopN 功能实验案例介绍...原创 2019-02-18 14:53:47 · 643 阅读 · 1 评论 -
Kvm安装及本地Yum源搭建
Kvm安装及本地Yum源搭建0.查看Linux运行级别[root@kvm ~]# runlevel1.更换yum源http://mirrors.aliyun.com/1.1.选择centos、epel镜像wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-6.repo1.2.修改默认yu原创 2017-01-16 12:30:31 · 4617 阅读 · 0 评论 -
Marvel安装
Marvel安装Marvel介绍Marvel是Elasticsearch的管理和监控工具1.Install Marvel into Elasticsearch:[matrix@node01 elasticsearch-2.4.2]$ ./bin/plugin --help[matrix@node01 elasticsearch-2.4.2]$ chmod u+x ./bin/plugin[ma原创 2017-01-07 14:52:49 · 816 阅读 · 0 评论 -
Kibana安装
Kibana安装下载kibana[root@node01 software]# wget https://download.elastic.co/kibana/kibana/kibana-4.6.1-linux-x86_64.tar.gz1.解压安装[root@node01 software]# tar -zxvf kibana-4.6.1-linux-x86_64.tar.gz -C /opt/原创 2017-01-07 14:51:57 · 787 阅读 · 0 评论 -
ElasticSearch安装
ElaticSearch安装ElasticSearch介绍Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。基于Restful接口- 普通请求是...get?a=1- rest请求...get/a/1ElasticSearch的用户- Github,Wikipedia,ebay等...1.解压原创 2017-01-07 14:49:52 · 309 阅读 · 0 评论 -
ZookeeperAPI的操作
基本使用org.apache.zookeeper.Zookeeper 是客户端入口主类,负责建立与server的会话,它提供了表1所示几类主要方法:功能 描述create 在本地目录树中创建一个节点delete原创 2016-12-17 23:31:29 · 384 阅读 · 0 评论 -
Flume与Kafka整合
Flume与Kakfa整合flume官方下载地址:https://flume.apache.org/download.html建议下载最新的1.6.0版本的,因为1.6.0版本的集成了整合kafka的插件包可以直接配置使用1、下载并解压apache-flume-1.6.0-bin.tar.gz包通过tar –zxvf apache-flume-1.6.0-bin.tar.gz命令解压压缩文件Flu原创 2016-04-11 21:42:20 · 1210 阅读 · 0 评论 -
Spark集群运行模式
Spark集群运行模式spark集群四种运行模式Local(只需要一台机器)Standalone(不需要Hadoop集群也可以跑Spark,Spark自带的集群模式)YarnMesos1、解压压缩文件到指定目录[root@node1 software]# tar -zxf spark-1.3.1-bin-hadoop2.4.tgz -C /opt/modules[root@node1 mo原创 2016-03-28 22:59:31 · 2068 阅读 · 0 评论 -
kafka分布式搭建
kafka分布式搭建(192.168.230.129)master(192.168.230.130)slave1(192.168.230.131)salve2在master、slave1、slave2三台主机上配置kafaka分布式集群准备工作:在三台机器上配置好zookeeper1、解压kafka压缩文件到指定目录下[root@master software]# tar -zxf kafka_2原创 2016-04-09 14:52:30 · 3320 阅读 · 0 评论 -
MR案例之实现平均成绩
MR实现平均成绩mapreduce是否可以完成我们传统开发中经常遇到的一些任务。例如排序、平均数、批量word转换等。它和我们传统开发有什么不同。那么我们可以带着下面问题来阅读:1.mapreduce是如何求平均值的?2.map在求平均值的作用是什么?3.reduce在求平均值的作用是什么?一、简介:"平均成绩"主要目的还是在重温经典"WordCount"例子,可以说是在基础上的微变化版,该实例主原创 2016-03-27 21:57:24 · 1785 阅读 · 0 评论 -
MR案例之倒排索引TF-IDF
MR案例之倒排索引简介:"倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。详情描述通常情况下,倒排索引由一个单词(或词组)以及相关的文档列表组成,文档列表中的原创 2016-03-27 21:46:15 · 3262 阅读 · 0 评论 -
日志分析项目
日志数据分析案例1.背景1.1 某论坛日志,数据分为两部分组成,原来是一个大文件,是56GB;以后每天生成一个文件,大约是150-200MB之间;1.2 日志格式是apache common日志格式;1.3 分析一些核心指标,供运营决策者使用;1.4 开发该系统的目的是分了获取一些业务相关的指标,这些指标在第三方工具中无法获得的;2.开发步骤2.1 把日志数据上传到HDFS中进行处理原创 2016-03-27 14:52:52 · 1131 阅读 · 1 评论 -
Storm分布式集群搭建
Storm分布式集群搭建1、解压Storm压缩文件[root@master software]# tar -zxf apache-storm-0.10.0.tar.gz -C /opt/modules[root@master software]# cd /opt/modules[root@master modules]# mv apache-storm-0.10.0 storm-0.10.02原创 2016-04-08 13:52:29 · 4004 阅读 · 0 评论 -
Sqoop导出数据
Sqoop导出数据到Hive上flume收集日志:主动的和被动的看文档sqoop底层是MR,要运行sqoop要有yarn环境,做大数据平台和关系型数据库导入导出工具,必须要有连接数据库的驱动sqoop和hive必须在一个节点上,sqoop和hive都是工具如果多个节点都安装了hive,如何保证多个hive的数据一致-->保证元数据一致-->即保证各个hive中存储元数据(公用元数据)的地方是一个地方原创 2016-03-25 22:43:39 · 579 阅读 · 0 评论 -
ELK日志分析系统
1.解决问题处理大数据日志收集分析,随着搜索集群的快速膨胀,大量日志处理及情况反馈滞后带来一系列问题,急需一个工具能快速分析定位集群只能怪哪种日子或哪个机器出现了异常ELK就是一套完整的日志分析系统ELK=Logstash+Elasticsearch+Kibana2.架构简介Nginx产生数据,logstash日志收集分发到Elasticsearch集群,Elasticsearch进行数据原创 2017-01-16 12:31:48 · 1122 阅读 · 0 评论 -
Ganglia分布式监控部署
Ganglia企业级系统监控1.现在有哪些分布式企业级监控?(1).Ganglia(无界面配置)(2).Nagios(无界面配置)(3).Zabbix(界面配置)2.Ganglia监控对象(1).监控Hadoop(在这方面用的比较多)(2).监控Hbase3.Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行原创 2017-01-16 12:34:03 · 916 阅读 · 0 评论 -
虚拟化KVM
1.什么是系统虚拟化系统虚拟化是将底层物理设备与上层操作系统、软件分离的一种去耦合技术,在一台物理机器上逻辑的划分出多台机器虚拟化的目标是实现IT资源 利用效率和灵活性 的最大化1.1.系统虚拟化的好处1、资源利用率高(多个系统融合在一台服务器上)2、系统维护灵活(应用系统不在依赖特定的硬件)2.为什么需要系统虚拟化1、服务器资源利用率低 - 公司服务器越来越多,如何充分管理?原创 2017-01-16 12:37:20 · 864 阅读 · 0 评论 -
从零构建第一个 Apache Flink 应用
目录从零构建第一个 Apache Flink 应用开发环境准备创建 Maven 项目编写 Flink 程序代码实现运行程序在终端启动 netcat 获得输入流运行示例程序开发环境准备Flink 可以运行在 Linux, Max OS X, 或者是 Windows 上。为了开发 Flink 应用程序,在本地机 器上需要有 Java 8.x 和 maven ...原创 2019-02-18 14:53:17 · 350 阅读 · 0 评论 -
使用VMware Fusion搭建Flink分布式集群
目录使用VMware Fusion搭建Flink分布式集群Flink vs Spark关于Flink数据处理场景下载VMware Fusion集群规划配置网络动态分配一个ip地址设置静态ip地址配置DNS检查NetManager的状态检查NetManager管理的网络接口检查NetManager管理的网络连接设置dns让dns配置生效设置静态、瞬态或...原创 2019-02-18 14:52:47 · 1028 阅读 · 0 评论 -
ELK流量分析
服务器环境:Centos71.通过hive对昨日的流量日志数据,进行离线批处理,按维度将一些指标预先聚合出来,将结果写入mysql,默认有一些预先处理好的数据已经存在mysql2.手动准备一些样例数据,然后写入mysql中,装一个mysql,模拟成是hive导入mysql的一份数据3.通过logstash,将mysql中的数据导入es中4.通过kibana+各种es聚合语法,生成各种各样的报表出来安原创 2017-12-24 22:39:00 · 3635 阅读 · 0 评论 -
vue-component
vue-componentvue组件简介组件系统是Vue.js其中一个重要的概念,它提供了一种抽象,让我们可以使用独立可复用的小组件来构建大型应用,任意类型的应用界面都可以抽象为一个组件树 什么是组件组件可以扩展HTML元素,封装可重用的HTML代码,可以将组件看作自定义的HTML元素。组件的创建和注册基本步骤 Vue.js的组件的使用有3个步骤:创建组件构造器、注册组件和使用组件示例原创 2017-11-08 11:47:41 · 10019 阅读 · 0 评论 -
Nginx的中间件架构
准备Cetntos 7安装基本库yum -y install gcc gcc-c++ autoconf pcre pcre-devel make automake安装基本工具yum -y install wget httpd-tools vim初始化cd /data/nginx/;mkdir app download logs work backup/data/nginx app:代码目录do原创 2017-11-08 10:01:15 · 1904 阅读 · 0 评论 -
Spark 2.0介绍:Dataset介绍和使用
Spark 2.0介绍:Dataset介绍和使用Spark2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大变化。DataSet是从Spark1.6开始引入的一个新的抽象,当时还是处于alpha版本;然而在Spark2.0,它已经变成了稳定版了。Dataset是特定域对象中的强类型集合,它可以使用函数或者相关操作并行地进行转换等操作。 每个Da原创 2017-04-05 17:19:10 · 647 阅读 · 0 评论 -
Flume与Kafka整合
Flume与Kakfa整合flume官方下载地址:https://flume.apache.org/download.html建议下载最新的1.6.0版本的,因为1.6.0版本的集成了整合kafka的插件包可以直接配置使用1、下载并解压apache-flume-1.6.0-bin.tar.gz包通过tar –zxvf apache-flume-1.6.0-bin.tar.gz命令解压压缩文件Flu原创 2017-02-24 16:24:34 · 560 阅读 · 0 评论 -
日志采集框架Flume的安装及使用
日志采集框架Flume的安装及使用1.Flume介绍1.1.Flume概述Flume是一个分布式、可靠、和高可用(旧版Flume og才有高可用)的海量日志采集、传输和聚合的系统。Flume可以采集文件,socket数据包等各种形式源数据, 又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 一般的采集需求,通过对flume的简单配置即可实现原创 2017-02-24 14:18:50 · 1535 阅读 · 0 评论 -
Kafka开源消息系统分布式集群搭建
Kafka开源消息系统分布式集群搭建1、KafKa是什么在流式计算中,KafKa一般用来缓存数据,Storm通过消费KafKa的数据进行计算KafKa + Storm + Redisa.Apache KafKa是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目b.kafka最初是由LinkedIn开发,并与2011年初开源。2012年10月从Apache I原创 2017-01-29 03:03:51 · 1394 阅读 · 0 评论 -
Azkaban工作流调度器
Azkanban工作流调度器1.为什么需要工作流调度系统一个完成的数据分析系统通常是由大量任务单元组成 shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行例如:我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理1、通过Had原创 2017-01-25 18:20:23 · 3019 阅读 · 0 评论 -
Docker部署
Docker部署1.安装Docker1.1.配置YUM源[root@docker yum.repos.d]# vi rdo-release.repo[root@docker yum.repos.d]# yum clean allLoaded plugins: fastestmirrorCleaning repos: base epel extras foreman foreman-plugin原创 2017-01-20 12:22:15 · 712 阅读 · 1 评论 -
Mahout协同过滤
Mahout协同过滤1.Mahout是什么Mahout是一个算法库,集成了很多算法Apache Mahout是Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可拓展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序Mahout项目目前已经有了多个公共发行版本。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项目挖掘原创 2017-01-20 11:23:30 · 5438 阅读 · 1 评论 -
Zabbix分布式集群监控
Zabbix分布式集群监控1.监控对象1、分布式文件系统HDFS2、分布式离线计算框架MapReduce3、分布式流式计算框架Storm4、分布式消息队列KafKa5、分布式内存计算框架Spark6、分布式列式数据库Hbase2.常见分布式企业级监控?1、Ganglia(无界面配置部署)/没有(电话,短信,微信,邮件)通知功能2、Nagios(无界面配置部署)3、Zabbix(界面配原创 2017-01-12 00:40:38 · 10340 阅读 · 2 评论 -
Sqoop导入数据到Hive
Sqoop导入数据到Hive上flume收集日志:主动的和被动的看文档sqoop底层是MR,要运行sqoop要有yarn环境,做大数据平台和关系型数据库导入导出工具,必须要有连接数据库的驱动1、node1节点上已经安装了mysql,并允许远程连接:[root@node1 ~]# service mysql start[root@node1 ~]# service mysql status2、将数据原创 2016-03-25 22:42:57 · 1250 阅读 · 0 评论 -
Sqoop导入数据到HDFS上
Sqoop导入数据到HDFS上flume收集日志:主动的和被动的看文档sqoop底层是MR,要运行sqoop要有yarn环境,做大数据平台和关系型数据库导入导出工具,必须要有连接数据库的驱动1、node1节点上已经安装了mysql,并允许远程连接:[root@node1 ~]# service mysql start[root@node1 ~]# service mysql status2、将数据原创 2016-03-25 22:42:20 · 1968 阅读 · 0 评论 -
HBase应用场景、原理与基本架构
HBaseHbase概述Hbase物理模型Hbase数据模型Hbase基本架构Hbase应用举例1、HBase概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储从逻辑上讲, HBase将数据按照表、行和列进行存储。Hbase是Hadoop生态系统的一个组成部分1.1、HBase与HDFS的对比两者原创 2016-03-15 09:53:37 · 4072 阅读 · 1 评论 -
Hbase的shell命令练习
Hbase shell命令练习准备启动HBase,要确认已启动Hadoop集群,Zookeeper[root@node5 hadoop-2.5.1]# start-hbase.sh进入Hbase[root@node5 ~]# hbase shell显示Hbase中的表hbase(main):001:0> list1、创建user表,包含info、data两个列族创建表方式一:hbase(mai原创 2016-03-20 11:31:06 · 1410 阅读 · 0 评论 -
Hbase基本shell运用
Hbase基本shell运用学生成绩表name grad course math artzkb 5 97 87baoniu 4 89 801、建立一个表格scores具有两个列族grad和coursehbase(main):007:0> create 'score','grade','co原创 2016-03-20 08:50:49 · 500 阅读 · 0 评论 -
HDFS-HA的搭建
HDFS HA(高可用)NameNode HA免密码:登录到别的机器上去执行脚本将原来hdfs-site.xml文件中的配置删除,配置hdfs HA的配置1、配置/opt/modules/hadoop-2.5.1/etc/hadoop目录下的hdfs-site.xml文件<configuration> <property> <name>dfs.nameservi原创 2016-03-08 14:25:38 · 721 阅读 · 0 评论 -
Zookeeper部署完全分布式
Zookeeper部署完全分布式Zookeeper搭建规划192.168.230.10/node1 192.168.230.11/node2 192.168.230.12/node3 192.168.230.14/node41、上传Zookeeper压缩文件到Linux主机的指定目录下2、解压Zookeeper压缩文件[root@node1 software]# tar原创 2016-03-07 22:54:47 · 556 阅读 · 0 评论 -
HDFS的API操作
HDFS设计目标硬件错误:数量众多的廉价机器使得硬件错误成为常态数据流访问:应用以流的方式访问数据;设计用于数据的批量处理,而不是低延时的实时交互处理。放弃全面支持POSIX大数据集:典型的HDFS上的一个文件大小是G或T数量级的,支持一个云中文件数量达到千万数量级简单的相关模型:假定文件一次写入多次读取。未来可能支持Appending-writer的模型移动计算比移动数据便宜:一个应用请求的计算,原创 2016-03-07 22:16:58 · 594 阅读 · 0 评论 -
eclipse配置hadoop插件
Eclipse配置hadoop插件1、导入hadoop-eclipse-plugin-2.5.1.jar进入eclipse的F:\software\eclipse\plugins目录下2、在eclipse中window->preference-Hadoop Map/Reduce->添加hadoop-2.5.1的安装目录3、在window->Show View中打开Map/Reduce Locatio原创 2016-03-07 15:30:26 · 593 阅读 · 0 评论 -
Phonenix与HBase结合
Phonenix与HBase结合1、解压phoenix压缩文件[root@node5 software]# tar -zxf phoenix-4.5.2-HBase-1.1-bin.tar.gz2、将解压后的包里的phoenix-core-4.5.2-HBase-1.1.jar,拷贝到集群各个节点HBase的lib目录下这里的包看版本了,记住前缀是phoenix-core的包,如果这里有phone原创 2016-03-17 17:07:10 · 789 阅读 · 0 评论