![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 88
问题不太大
这个作者很懒,什么都没留下…
展开
-
Apache Atlas 安装
Atlas 安装安装Solr(单节点)kafka安装安装Maven并配置MAVEN_HOME下载Atlas源码文件并编译(独立Hbase、Solr)配置Atlas配置Hive Hook安装Solr(单节点)下载地址:https://solr.apache.org/downloads.html解压后直接启动bin/solr start -c -z <zookeeper_host:port> -p 8983kafka安装kafka安装连接安装Maven并配置MAVEN_原创 2021-08-13 18:08:41 · 39638 阅读 · 0 评论 -
Hive HBase 集成
Hive HBase集成Avro 数据存储在 HBase 列中介绍用法列映射多个列和列簇Hive MAP 到 HBase 列族Hive MAP 到 HBase 列前缀隐藏列前缀非法:Hive 原语到 HBase 列族二进制列示例简单的复合行键(As of Hive 0.13.0)复杂的复合行键和 HBaseKeyFactoryAvro 数据存储在 HBase 列中(As of Hive 0.14.0)Avro 数据存储在 HBase 列中版本信息:Avro 数据存储在 HBase 列中 从 Hive原创 2021-07-13 15:17:44 · 43068 阅读 · 1 评论 -
基于腾讯云EMR的Flink1.10 Catalog 集成 Hive2.3.7 大坑
基于腾讯云EMR的Flink1.10 Catalog 集成 Hive2.3.7 大坑正常Flink集成Hive**`但是问题来了:`**解决方案正常Flink集成Hive普通版本Flink Catalog集成Hive的元数据时根据Flink官网一步一步来是没有问题的。官网给了Hive各个版本集成时应该去拷贝哪些jar包这些都是正常的操作流程,然后还要sql-client的配置方式也有说明。看到这里可以说是照着官网有手就能干,保姆式服务,下面官方还给出了Flink的Catalog对Hive的支原创 2021-06-08 17:02:49 · 44276 阅读 · 0 评论 -
Flume集成logback将日志写入HDFS
Flume集成logback将日志写入HDFSFlume 配置文件(Kafka代替Flume Channel)Spring Boot + logback集成Flume测试Flume 配置文件(Kafka代替Flume Channel)flume-test-conf.properties# 组件命名a1.sources = r1a1.sinks = k1a1.channels = c1# sourcea1.sources.r1.type=avroa1.sources.r1.bind=0原创 2021-06-03 15:57:54 · 44644 阅读 · 1 评论 -
Kafka穿过网闸(物理层)进行消费
Kafka穿过网闸(物理层)进行消费前言服务器信息互联网服务器A:网闸机器B:内网服务器C:Kafka server.properties配置测试内网消费者(Springboot)代码application.properties原理新消费组加入的过程前言 当前公司有一个场景,就是在互联网服务器搭建kafka集群,在内网环境下进行互联网Kafka集群的消费,在内外网之间搭建一层物理层面的网闸来代理外网服务器。 由于对安全的考虑,内外网服务器都打开了防火墙。当时只使用互联网Kafka集群对内网机器开通原创 2020-12-21 15:02:31 · 46076 阅读 · 0 评论 -
通过Nginx代理Kafka实现跨网络消费
通过Nginx代理Kafka实现跨网络消费1. 服务器环境2. 服务搭建2.1 服务器B服务搭建2.2 服务器A服务搭建3. 测试连通性1. 服务器环境两台服务器同在一个网段(都开打开防火墙模拟跨网)分别为服务器A、服务器B服务器A(172.**.**.219):安装Nginx(1.8.0以上的Nginx才支持stream模块)服务,对所有网段打开9092端口服务器B(172.**.**.220):安装Kafka服务,对服务器A打开9092端口2. 服务搭建2.1 服务器B服务搭建原创 2020-12-11 16:35:53 · 51066 阅读 · 2 评论 -
使用MapReduce实现定图的最小生成树
使用MapReduce实现定图的最小生成树如何实现计算最小生成树什么是最小生成树最小生成树的性质使用`Kruskal`算法实现最小生成树Kruskal算法简述实现逻辑MapReduce实现`Kruskal`算法如何实现计算最小生成树什么是最小生成树在一给定的无向图G = (V, E) 中,(u, v) 代表连接顶点 u 与顶点 v 的边(即),而 w(u, v) 代表此边的权重,若存在 T 为 E 的子集(即)且为无循环图,使得w(T)=∑(u,v)∈tw(u,v)w(T) = \sum_{(u,原创 2020-09-07 08:46:59 · 47572 阅读 · 4 评论 -
Spark超时重启、自动拉起脚本(Python版)
程序说明无自动拉起脚本Spark Streaming程序往往不稳定,遇到一些网络延迟或者部分节点挂掉会导致程序批次时间过长,从而影响程序的实时性。Spark Streaming 程序会因为一些不可控因素宕机,影响数据处理。该自动拉起脚本会根据Spark在Yarn中的任务ID去判断程序是否宕机,如果程序宕机,则启动Spark程序。会根据Yarn的Web页面获取当前批次的处理时长,如果批次执行时间过长的话就会重启Spark程序。代码(Python版)# -*- coding: utf-8原创 2020-07-24 19:47:16 · 48806 阅读 · 0 评论 -
Spark(Scala)连接带Kerberos认证的Hbase
参数zookeeperQuorum:zookeeper主机名/IPclientPort:zookeeper端口znodeParent:Hbase在zookeeper中的元数据节点(可在Hbase配置文件中或者ZkCli中查看该配置)kerberosConfPath:krb5.conf路径(可放在项目的resurces目录下)principal:具有访问权限的Kerberos票据keytabPath:Kerberos票据对应的keytab路径Java版代码连接代码import org.a原创 2020-07-22 16:53:54 · 49791 阅读 · 0 评论 -
Java连接Kerberos认证的Hbase
参数zookeeperQuorum:zookeeper主机名/IPclientPort:zookeeper端口znodeParent:Hbase在zookeeper中的元数据节点(可在Hbase配置文件中或者ZkCli中查看该配置)kerberosConfPath:krb5.conf路径(可放在项目的resurces目录下)principal:具有访问权限的Kerberos票据keytabPath:Kerberos票据对应的keytab路径连接代码package com.tky.conf原创 2020-07-22 16:38:07 · 49001 阅读 · 0 评论 -
Spark ML计算皮尔逊相似度案例
Spark ML 计算两用户间的皮尔逊相似度功能说明数据格式及说明设计思路Spark ML 计算皮尔逊相关系数代码(Scala)功能说明该程序根据不同用户对不同电影的评分情况,通过Spark ML中Correlation.corr函数计算用户之间的皮尔逊相关矩阵。数据格式及说明该数据为模拟数据。X A:5.0,B:1.0,C:2.0,D:0Y A:3.0,B:1.0,C:2.0,D:3.00其中X、Y分别代表两个用户A-D代表电影名称,电影名后面代表该用户的评分注意:实原创 2020-07-08 17:58:57 · 30331 阅读 · 2 评论 -
Spark MLlib机器学习 Pipelines
Spark ML PipelinesML管道管道的主要概念DataFramePipeline components(管道组件)Transformers(转换器)Estimators(估算器)Properties of pipeline components(管道组件属性)Pipeline(管道)工作流程详细参数ML持久性:Saving and Loading Pipelines持久性的向后兼容代码示例Estimator, Transformer, and ParamPipelineML管道管道的主要概念原创 2020-07-02 22:04:47 · 29184 阅读 · 0 评论 -
Hbase单节点伪分布式搭建
Hbase伪分布式搭建引言Hbase伪分布式搭建是指在一台机器上同时运行 Hmaster、 Hregionserver,该文章基于Hadoop伪分布式搭建Hadoop伪分布式搭建传送门搭建过程Zookeeper安装将Zookeeper压缩包上传至服务器解压缩Zookeeper二进制文件[root@CentOS ~]# tar -zxvf zookeeper-3.4.6.tar.gz -C /opt/install/c进入Zookeeper根目录[root@CentOS ~]#原创 2020-06-27 16:19:07 · 29301 阅读 · 0 评论 -
Hive安装(超详细)
Hive安装前提环境Hive安装解压文件修改配置文件HDFS创建Hive工作空间配置Hive环境变量Hive启动替换Hive原生MetaStore前提环境Linux基础设置以及Hadoop环境安装请看上一篇文章Hive安装解压文件[root@localhost ~]# tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /opt/install/修改配置文件[root@localhost apache-hive-1.2.2-bin]# cd /opt/in原创 2020-06-24 18:03:00 · 33351 阅读 · 4 评论 -
Hadoop 伪分布式搭建(超详细)
Hadoop伪分布式搭建虚拟机准备阶段操作安全设置防火墙相关指令关闭关闭selinuxIP设置查看机器IP修改主机名修改IP及主机名映射SSH免密登陆Hadoop伪分布式搭建JDK配置解压配置环境变量Hadoop配置解压文件修改配置文件配置Hadoop环境变量验证环境变量是否配置成功格式化NameNodeHadoop起停命令查看WebUI界面虚拟机准备阶段操作本文是基于CentOS 7 系统搭建相关资源下载链接:https://pan.baidu.com/s/1FW228OfyURxEgnXW0qq原创 2020-06-24 17:44:34 · 43768 阅读 · 13 评论 -
Spark入门( 九)——机器学习 Spark MLlib
Spark MLlib机器学习是什么?机器学习Spark MLlibSpark MLlib案例快速入门基本统计Correlation(相关性)Hypothesis testing(假设检验)Summarizer(总结器)未完待续。。。机器学习是什么?机器学习数据挖掘有着50多年的发展历史。机器学习就是其子领域之一,特点是利用大型计算机集群来从海量数据中分析和提取知识机器学习与计算统计学密切相关。它与数学优化紧密关联,为其提供方法、理论和应用领域。机器学习在各种传统设计和编程不能胜任的计算机任务中有广原创 2020-06-24 13:13:59 · 29211 阅读 · 0 评论 -
Spark入门( 八)——Spark流计算新玩法-Structured Streaming
Structured Streaming介绍与使用原创 2020-06-15 22:27:02 · 25216 阅读 · 2 评论 -
Spark入门(七)——最全的Saprk SQL算子介绍与使用(下)
Spark SQL 查询SQL语法查询单行查询模糊查询排序查询limit查询分组查询having过滤case-when行转列pivotCube计算Join表连接子查询开窗函数开窗函数SQL解读ROW_NUMRANK()DENSE_RANK() /密集排名自定义函数单行函数聚合函数(untyped)Load/SavePaquetJSONORC(存储压缩格式,比较节省空间)CSVJDBCDataFrame转为RDDSQL语法查询单行查询// 单行查询var userDF = List((1, "张三",原创 2020-06-12 15:27:16 · 19338 阅读 · 0 评论 -
Spark入门(六)——最全的Saprk SQL算子介绍与使用(上)
Spark DataSet、DataFrame使用 Spark SQL使用方法原创 2020-06-01 17:08:03 · 20860 阅读 · 0 评论 -
Spark入门(五)——Spark Streaming
Spark Streaming学习 Spark流计算原创 2020-05-27 12:53:17 · 20258 阅读 · 3 评论 -
Spark入门(四)——Spark RDD算子使用方法
Spark RDD算子使用方法 spark算子语法原创 2020-05-26 09:58:15 · 18913 阅读 · 0 评论 -
Spark入门(三)——SparkRDD剖析(面试点)
Spark面试 Spark源码剖析,Spark任务过程提交、宽窄依赖面试点 SparkRDD原创 2020-05-22 17:37:03 · 18728 阅读 · 0 评论 -
Spark入门(二)——Spark环境搭建与开发环境
Spark Standalone 和 Spark On Yarn环境搭建原创 2020-05-21 09:18:34 · 18831 阅读 · 0 评论 -
Spark入门(一)——Spark的“前世今生”
Spark入门(一)-Spark简介原创 2020-05-21 08:55:54 · 18816 阅读 · 0 评论 -
Elasticsearch入门篇
ElasticSearchElasticSearch:简称为ES,基于Lucene全文检索引擎服务,支持分布式集群(数据横向扩展、分布式计算)应用场景:1. 全文检索或者搜索服务 2. NOSQL数据库(ES中的数据单元为JSON) 3. ELK数据分析平台NRT (near real time) 接近实时 ES中的一条数据写入后大概会有1s的延迟才能被检索到9300端口:Es节点之间通讯...原创 2020-02-06 12:14:22 · 18680 阅读 · 0 评论 -
Apache Flume
Apache Flume介绍架构Flume环境搭建配置文件结构快速入门启动Avro SourceMaven依赖代码Avro Source | memory channel| Kafka SinkFlume和log4j整合依赖log4j.properties测试代码Spring Boot logback整合 FlumeSpringBoot项目组引入logback.xml集成 Flume +log...原创 2019-11-07 11:13:20 · 18290 阅读 · 0 评论 -
Hadoop生态圈-Hive
HiveHive引言Hive的运行原理Hive环境搭建Hive基本操作MetaStore的替换问题Hive引言什么是Hive hive是facebook开源,并捐献给了apache组织,作为apache组织的顶级项目。 hive.apache.org hive是一个基于大数据技术的数据仓库技术 DataWareHouse (数仓) 数据库 DataBas...原创 2019-10-29 22:08:07 · 18888 阅读 · 0 评论 -
Hbase伪分布式及高可用集群搭建
HBaseHbase的引言什么是HBaseNoSQL特点NoSQL分类Hbase存储的逻辑结构Hbase伪分布式环境的搭建Hbase的shell命令HBase 集群搭建1.时间同步集群2.Hadoop集群搭建3. Zookeeper集群4. HBase集群HBase JAVA APIMaven依赖方法HBase中的过滤器HBase中列簇相关的属性HBase 体系结构1.RegionServer2....原创 2019-10-29 21:32:12 · 18437 阅读 · 0 评论 -
Spark SQL 读取 Hive表中数据 在Cluster模式下找不到库
在Spark On Hive使用SparkSQL读取hive表中的数据,local和client模式下测试都可以通过,但在yarn的cluster模式下测试抛出了如下异常:org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database ‘test’ not found;最后找出原因:把spark的任务jar放到y...原创 2019-08-29 17:09:16 · 19817 阅读 · 0 评论 -
一篇文章读懂Kafka消息队列
Kafka 基础篇消息队列的概念使用消息队列的场景分析异步消息发送:系统间解耦合Kafka 架构Kafka集群安装准备工作安装Zookeeper集群确保Kafka集群的正常运行Kafka安装步骤启动服务测试Topic 和 日志生产者消费者Topic管理篇(DDL)创建TocpicTopic详细信息删除TopicTopic列表Kafka API实战(JDK1.8+)快速入门Maven依赖引入log4...原创 2019-07-24 19:44:02 · 17549 阅读 · 1 评论 -
Storm 运行jar出错:org.apache.storm.thrift.TApplicationException: getLeader failed: unknownre result
编写完storm的java代码准备在集群环境运行测试,结果报错:起初以为是代码的错误,结果检查半天也没错误后来去UIServer看集群状态,发现有节点宕掉了。最后:重启机群,重新执行storm jar storm-lowlevel-1.0-SNAPSHOT.jar com.msk.demo01.WordCountTopolpgy错误解决如果重启集群出错,先检查zookeeper集群...原创 2019-06-17 20:33:11 · 16749 阅读 · 0 评论 -
Hadoop HA 高可用集群搭建
HDFS分布式集群搭建【高级版】HDFS集群要保证NameNode的高可用性,为了让NameNode更安全,这里选择用ZooKeeper集群来保证环境及准备zookeeper集群的搭建HA-HDFS分布式集群搭建HDFS集群要保证NameNode的高可用性,为了让NameNode更安全,这里选择用ZooKeeper集群来保证环境及准备同上篇普通版zookeeper集群的搭建下载并解压z...原创 2019-06-05 21:46:10 · 14933 阅读 · 0 评论 -
大数据学习(2)-本地上传到HDFS去重
本地上传文件到HDFS利用Redis去重前言:HDFS存储数据块的同时还会存储数据的MD5加密校验和用来判断该数据是否完整下面代码就是模仿这个特性做了一个小功能进行上传时内容去重技术选型springbootRedisHadoopJSPMavenpom.xml<?xml version="1.0" encoding="UTF-8"?><project x...原创 2019-06-05 21:01:28 · 14858 阅读 · 0 评论 -
大数据学习(1)-Hadoop HDFS基础分布式集群搭建及使用
HDFS分布式集群搭建【基础版】环境:以CentOS6.5为例(3个节点)准备配置文件修改NameNode格式化启动|停止hadoop【在NameNode节点运行】shell访问HDFS浏览器访问HDFC环境:以CentOS6.5为例(3个节点)防火墙关闭并关闭自启selinux设置关闭设置主机名设置主机映射 jdk1.7ssh免密登陆hadoop-2.5.2准备解压hado...原创 2019-06-05 20:36:33 · 14882 阅读 · 1 评论