怒上王者-CSDN博客

原创 spark本地项目报错：Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

spark本地项目报错：Could not locate executable null\bin\winutils.exe in the Hadoop binaries.idea本地运行spark程序是报错java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apache.hadoop.util.Shell.getQualifiedBinPath(She

2021-12-21 15:10:44 1809 1

转载 JDBC连接池

DBCP的jar包官网下载Pool的jar包官网下载Collections的jar包官网下载Logging的jar包官网下载mysql-connecor的jar包官网下载package utils;import com.mysql.cj.jdbc.Driver;import org.apache.commons.dbcp2.BasicDataSource;import java.sql.Connection;import java.sql.ResultSet;import java.

2021-05-17 17:18:36 326

原创 flume-sink报错 : close() called when transaction is OPEN - you must either commit or rollback first

启动flume agent时报错(SinkRunner-PollingRunner-DefaultSinkProcessor) [ERROR - org.apache.flume.SinkRunner$PollingRunner.run(SinkRunner.java:158)] Unable to deliver event. Exception follows.java.lang.IllegalStateException: close() called when transaction is OP

2021-05-13 14:52:33 1016

原创 Spark Streaming(十二)基于Spark Streaming&Flume&Kafka打造通用流处理平台

通用流处理平台整合日志输出到Flume1. pom.xml2. 结合log4j产生日志3. 编写Flume配置文件 streaming.conf4. Flume启动5. 配置log4j.properties6. 启动IDEA程序，查看日志接收情况整合Flume到Kafka1. 启动zookeeper2. 启动kafka3.查看Kafka的topic列表4.创建一个新的topic5.编写Flume配置文件(streaming2.conf)6.启动Flume agent7.启动kafka消费者8.启动IDEA程

2021-05-12 10:23:28 359

原创 Spark Streaming整合Kafka实战二

Spark Streaming整合Kafka实战二Spark Streaming整合kafka的第二种方式1. Direct Approach (No Receivers)优点：缺点：2. 偏移量解决方案自动提交偏移量手动提交偏移量Spark Streaming整合kafka的第二种方式1. Direct Approach (No Receivers)这种新的不基于Receiver的直接方式，是在Spark 1.3中引入的，从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后，这种方

2021-05-10 20:04:21 2897 8

原创 Spark Streaming实时流处理项目实战(十一)Spark Streaming整合Kafka实战一

Spark Streaming整合Kafka实战Spark Streaming对kafka的支持Spark Streaming整合kafka的两种方式receiver方式：基于线程拉取数据direct方式：直接连接模式1.Receiver-based ApproachSpark Streaming对kafka的支持spark streaming官网链接：https://spark.apache.org/docs/2.2.0/streaming-kafka-integration.htmlSpark

2021-05-10 17:03:55 468 4

原创 Hbase伪分布式安装

Hbase伪分布式安装1.解压hbase安装包2.配置环境变量3.修改hbase配置文件1.hbase-env.sh2.hbase-site.xmlhbase-site.xml 配置参数解析修改regionservers4. 启动1.解压hbase安装包tar -zxvf hbase-1.2.6-bin.tar.gz -C /opt/module2.配置环境变量vim /etc/profileexport HBASE_HOME=/opt/module/hbase-1.2.6export PA

2021-05-10 13:00:55 2513 3

原创 Kafka单节点部署及使用

Kafka单节点部署及使用1.下载2.上传解压3.修改配置文件4.配置环境变量修改zookeeper配置6.启动kafka6.测试创建topic查看kafka中所有topic信息创建生产者创建消费者1.下载从官网下载kafka，由于测试需要，我下载的是kafka_2.11-0.9.0.1.tgz2.上传解压将安装包上传到/opt/software目录，并解压tar -zxf kafka_2.11-0.9.0.1.tgz -C /opt/module/3.修改配置文件创建logs目录[r

2021-05-08 15:40:19 656

原创记一次Spark Streaming 整合Flume-Pull方式报错

Spark Streaming从flume 中使用Pull拉取数据时，报如下错误： 12:18:35 INFO node.Application: Starting Sink spark-sink 12:18:35 INFO node.Application: Starting Source netcat-source 12:18:35 INFO source.NetcatSource: Source starting 12:18:35 INFO sink.SparkSink: Starting S

2021-05-05 12:36:36 169 1

原创 Spark Streaming实时流处理项目实战(十)Spark Streaming整合Flume实战二

Spark Streaming整合Flume实战二基于拉方式：Pull-based Approach using a Custom Sink配置步骤基于拉方式：Pull-based Approach using a Custom SinkSpark Streaming 基于拉方式处理 Flume-ng 数据源(Pull-based Approach using a Custom Sink)这种方式不是 Flume 直接推送数据到 SparkStreaming ，这种方法运行了一个如下所示的 Flume

2021-05-05 12:28:21 299

转载 IDEA搭建spark maven项目的 pom.xml文件配置

pom.xml文件配置如下<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/m..

2021-05-04 10:49:57 2619

原创 Spark Streaming实时流处理项目实战(十)Spark Streaming整合Flume实战一

一、简介Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。二、推送式方法-Push在推送式方法 (Flume-style Push-based Approach) 中，Spark Streaming 程序需要对某台服务器的某个端口进行监听，Flume 通过 avro Sink 将数据源源不断推送到该端口。三、基于拉方式处理-PullSpar

2021-04-30 16:00:33 364

原创 jdbc字符串拼接单引号和双引号问题

jdbc中，字符串拼接的问题JDBC中的sql语句单引号和双引号，双引号是为了表示字符串，这个很容易懂。出现单引号一般是需要对数据库执行更新操作（更新字段或者插入数据）或者查询操作时，出现了字符串。在数据库中，字符串是用一对单引号括起来的，整型不用。而这种拼接的方式最主要的目的就是将单引号中的值替换为变量，在sql语句被执行时将解析这些变量再将其替换为需要的数据，这样就比固定值更加灵活。String sql="select * from users where "+"username='"+user

2021-04-28 15:35:46 2271

原创 Spark Streaming实时流处理项目实战(九)Spark Streaming进阶

Spark Streaming进阶带状态的算子带状态的算子updateStateByKey

2021-04-27 16:12:14 220

原创 Ambari+HDP+HDP-UTILS下载地址大全

Cloudera收费之后，CDH和HDP都需要订阅之后才能下载HDP下载地址：https://download.csdn.net/download/weixin_36815898/16104515CDH下载地址：https://download.csdn.net/download/weixin_36815898/15561728

2021-04-26 11:24:24 1185

原创 Spark Streaming实时流处理项目实战(八)Spark Streaming核心

Spark Streaming核心核心概念1. StreamingContextTransformationsOutput Operations实战案例核心概念1. StreamingContextTransformationsOutput Operations实战案例

2021-04-25 17:15:35 601

原创 MySQL-JDBC&ODBC&下载

MySQL-JDBC&ODBC&下载jdbc下载odbc下载jdbc下载下载网址1. 点击Archives2. 选择相应的版本，系统选择Platform Independent，下载zip包下载后，解压zip，文件夹中mysql-connector-java-5.1.27-bin.jar就是mysql的jdbc包了。odbc下载下载网址选择相应的版本即可下载...

2021-04-11 12:34:14 218

原创 Ubuntu16.04安装MySQL

Ubuntu16.04安装MySQL 1、下载安装包 2、安装 3、登录mysql 1、下载安装包下载网址选择DEB Bundle，点击右侧Download。 2、安装将安装包上传到服务器，解压安装顺序dpkg -i mysql-common_5.7.22-1ubuntu16.04_amd64.debdpkg-preconfigure mysql-community-server_5.7.22-1ubuntu16.04_amd64.debdpkg -i libmysqlclient20_

2021-04-09 20:41:28 850

原创 hadoop伪分布式集群搭建

hadoop伪分布式集群搭建一、关闭防火墙二、关闭selinux三、安装jdk 四、修改主机名、hosts 五、hadoop安装及配置1、将hadoop安装包上传到 /opt 目录下2、解压安装包4、配置hdfs-site.xml5、配置mapred-site.xml6、配置yarn-site.xml7、配置slaves8、配置Hadoop环境配置9、创建core/hdfs-site.xml里配置的路径10、Hadoop的初始化11、启动hadoop12、访问hadoop的webUI界面一、关闭防火墙s

2021-04-06 17:07:10 1565

原创 gbase报错总结(持续更新)

gbase报错总结文件入库文件入库执行load语句时，报I/O 错误gbase@gbase01:~$ gccli -uroot -Dssbm -vvv -e "load data infile 'sftp://gbase:gbase123@172.16.227.110//opt/ssbm/data/lineorder.tbl' into table lineorder data_format 3 fields terminated by '|';"--------------load data i

2021-04-01 10:29:54 5220

转载 ssh互信脚本

ssh互信脚本ssh 互信脚本1. 检测本地是否有秘钥文件 1.1 没有则生成秘钥文件2. 检测是否安装 expect 命令 2.1 没有则安装 expect3. 循环主机列表 3.1 将本机公钥发送到主机列表中的所有主机 3.2 检测列表中的主机是否有秘钥文件 3.2.1 没有则生成秘钥文件 3.2.2 检测本机 authorized_keys 文件中是否包含远程主机公钥 3.2.2.1 没有则将远程主机公钥添

2021-03-31 10:07:23 373

原创 SSBM数据模型基准测试

这里写目录标题1、模型介绍2、生成数据步骤3、数据库建表1、模型介绍SSB（Star Schema Benchmark）是麻省州立大学波士顿校区的研究人员定义的基于现实商业应用的数据模型，业界公认用来模拟决策支持类应用，比较公正和中立。学术界和工业界普遍采用它来评价决策支持技术方面应用的性能。全方位评测系统的整体商业计算综合能力，对厂商的要求更高。在银行信贷分析和信用卡分析、电信运营分析、税收分析、烟草行业决策分析中都有广泛的应用。SSB基准测试包括：1个事实表：lineorder4个维度表

2021-03-30 16:32:14 1648

原创 BI工具Meatbase的安装与使用

目录一、Meatbase安装二、使用Meatbase连接其他数据库三、制作图表一、Meatbase安装下载：官网【https://www.metabase.com/start/】也可以下载汉化版：【http://www.bkill.com/download/155614.html】解压完成后会是一个jira包：metabase.jar命令行启动服务：java -jar metabase.jar当显示访问地址时，说明启动成功，在浏览器中输入访问网址，http://localhost:3000/

2021-03-27 15:27:27 860

原创记一次kettle连接mysql报错，解决方法

记一次kettle连接mysql报错错误连接数据库 [158Mysql] : org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to connect to the databaseError connecting to database: (using class org.gjt.mm.mysql.Driver)Access denied for user 'root'@'172.1

2021-03-21 17:42:19 2306 2

原创 Kettle7.1版本下载地址

https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.1/

2021-03-21 15:49:26 2657

原创 Spark Streaming实时流处理项目实战(七-2)粗粒度&细粒度原理

粗粒度&细粒度原理粗粒度细粒度粗粒度上图是Spark Streaming粗粒度工作示意图1.工作原理：（1）Spark Streaming接收到实时数据流（data stream）（2）Spark Streaming把数据按照指定的时间段切成一片片小的数据块（小批次）（3）然后Spark Streaming把小的数据块传给Spark Engine处理（4）Spark Engine处理后，输出处理后的数据（processed result）每个应用程序的运行环境由一个Dr

2021-03-13 13:50:05 246

原创 Linux下普通用户登录时出现 -bash-4.2$

记一次我是用root用户su - hdfs时出现-bash-4.2$[root@hadoop101 ~]# su - hdfssu: warning: cannot change directory to /var/lib/hadoop-hdfs: Permission denied-bash: /var/lib/hadoop-hdfs/.bash_profile: Permission denied-bash-4.2$ exitlogout-bash: /var/lib/hadoop-hdfs

2021-03-11 14:34:47 2024

原创 CDH安装Spark2后执行spark-shell报错

CDH集群，使用CM安装完Spark2，使用spark2-shell报错报错信息如下[root@hadoop103 ~]# spark2-shellSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).21/03/10 19:53:53 ERROR spark.SparkContext: Error

2021-03-10 20:36:44 300

原创执行spark程序报错: org.apache.spark.Logging

执行spark程序报错：Caused by: java.lang.ClassNotFoundException: org.apache.spark.LoggingSpark Streaming在使用spark2自带的jar包进行wordcount统计时，出现以下报错root@hadoop103 jars]# spark2-submit --master local[2] \> --class org.apache.spark.examples.streaming.NetworkWordCount

2021-03-10 15:23:41 2167

原创 CDH集群无法找到主机的NTP 服务,或该服务未响应时钟偏差请求

记一次DataNode节点发生down机，ntp服务重启，CM报错：此角色的主机的运行状况为不良，一些运行状况测试不良：时钟偏差，重启Manager server都不行，最后，重启了一个agent，命令重启cm agernt命令systemctl restart cloudera-scm-agent重启cm server命令systemctl restart cloudera-scm-server这里只重启agent，重启完成后，Cloudera Management Service就已经变

2021-03-10 09:30:07 448

原创 Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream

Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStreamCDH5.16.2执行spark-submit或者spark-shell 时报错[root@hadoop103 ~]# spark-submitException in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStre

2021-03-09 15:58:03 4684

转载 Hadoop实战-中高级部分之 HDFS原理架构和副本机制

Hadoop实战-中高级部分之 HDFS原理架构和副本机制Hadoop RestFulHadoop HDFS原理1Hadoop HDFS原理2Hadoop作业调优参数调整及原理Hadoop HAHadoop MapReduce高级编程Hadoop IOHadoop MapReduce工作原理Hadoop 管理Hadoop 集群安装Hadoop RPC第一部分：当前HDFS架构详尽分析HDFS架构•NameNode•DataNo...

2021-03-09 10:25:47 193

原创 Spark Streaming实时流处理项目实战(七-1)Spark Streaming入门

Spark Streaming入门概述应用场景集成Spark生态系统的使用Spark Streaming发展史词频统计概述Spark Streaming是核心Spark API的扩展，可实现实时数据流的可伸缩，高吞吐量，容错流处理。数据可以从像卡夫卡，室壁运动，或TCP套接字许多来源摄入，并且可以使用与像高级别功能表达复杂的算法来处理map，reduce，join和window。最后，可以将处理后的数据推送到文件系统，数据库和实时仪表板。实际上，您可以在数据流上应用Spark的机器学习和图形处理算

2021-03-08 20:25:20 770 2

原创 Spark Streaming实时流处理项目实战(六)使用IDEA搭建Spark Streaming开发环境

使用IDEA搭建Spark Streaming开发环境1、pom.xml中添加对应的依赖1、pom.xml中添加对应的依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht

2021-03-05 17:34:07 479 1

原创 IDEA中Dependencies红色波浪线报错的解决办法

IDEA中Dependencies红色波浪线报错（缺少Dependency）的解决办法记录一次，在pom文件导入依赖时，Maven里的Dependencies中有时候会有红色波浪线：com.amazonaws:aws-java-sdk-bundle、经过网上查找，终于找到了解决办法，而且还很有效1、将pom.xml文件中对于有波浪线的依赖，将其<dependency></dependency>标签从pom.xml中删除，保存后,点击Reimport从上图可以看..

2021-03-05 17:26:16 6957 2

转载 Error:java: Compilation failed: internal java compiler error的问题

idea中解决Error:java: Compilation failed: internal java compiler error的问题项目中，使用gradle做项目构建，当我们想更改JDK的版本时，报以下错误：Information:Using javac 1.8.0_111 to compile java sourcesInformation:java: javacTask: 源发行版 1.8 需要目标发行版 1.8Information:java: Errors occurred wh

2021-03-05 16:58:43 260

原创 IDEA使用Maven Helper解决Maven依赖冲突

有时候在pom文件中添加依赖时，会出现依赖冲突1、什么是依赖冲突简单来说就是现在你的项目中，使用了两个Jar包，分别是A和B。现在A需要依赖另一个Jar包C，B也需要依赖C。但是A依赖的C的版本是1.0，B依赖的C的版本是2.0。这时候，Maven会将这1.0的C和2.0的C都下载到你的项目中，这样你的项目中就存在了不同版本的C，这时Maven会依据依赖路径最短优先原则，来决定使用哪个版本的Jar包，而另一个无用的Jar包则未被使用，这就是所谓的依赖冲突2、解决方案：使用IDEA安装Mave

2021-03-05 15:54:11 287

原创查看hadoop版本

输入hadoop version[root@hadoop101 ~]# hadoop versionHadoop 2.6.0-cdh5.16.2Subversion http://github.com/cloudera/hadoop -r 4f94d60caa4cbb9af0709a2fd96dc3861af9cf20Compiled by jenkins on 2019-06-03T10:41ZCompiled with protoc 2.5.0From source with check

2021-03-04 17:42:53 4900 1

原创 Linux里安装虚拟机后配置双网络

Linux安装虚拟机后，如何配置ip？1、使用vnc连接到服务器桌面，打开VMware2、选择Edit→Virtual Network Editor3、设置桥接模式，选择使用的网卡em14、添加网卡：点击左侧虚拟机，右键选择Settings→Network Adapter→Add →Network Adapter →Finish，如果已经设置好NAT网络了，需要将这个网卡先删掉，一会配置完之后再添加回来即可5、选择Custorm,然后点击save保存

2021-03-04 17:11:24 419 1

原创 Linux下如何查看哪个进程占用内存多？

1、top　　top命令是Linux下常用的性能分析工具，能够实时显示系统中各个进程的资源占用状况，类似于Windows的任务管理器　　可以直接使用top命令后，查看%MEM的内容。可以选择按进程查看或者按用户查看，如想查看oracle用户的进程内存使用情况的话可以使用如下的命令：　　$ top -u oracle　　内容解释：　　PID：进程的ID　　USER：进程所有者　　PR：进程的优先级别，越小越优先被执行　　NInice：值　　VIRT：进程占用的虚拟内存　　RES：

2021-03-04 11:25:48 2369 1

Ambari-2.7.5.0 + HDP-3.1.5 （Centos7和Redhat7版本）的网盘下载地址，链接失效可私信

HDP安装包，ambari安装包下载 ambari安装包本地下载，离线安装 Ambari-2.7.5.0 + HDP-3.1.5 安装包

2023-03-10

MergeODSTaskOnLine.scala

2022-11-25

Ambari-2.6.2.2 + HDP-2.6.5 （Centos7和Redhat7版本）的网盘下载地址

Ambari-2.6.2.2 + HDP-2.6.5 （Centos7和Redhat7版本）的网盘下载地址，链接失效可私信

2022-05-12

clickhouse_中文官方文档

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

2022-01-28

Spark Streaming实时流处理项目实战视频网盘下载

第1章课程介绍第2章初识实时流处理第3章分布式日志收集框架Flume 第4章分布式发布订阅消息系统Kafka 第5章实战环境搭建第6章 Spark Streaming入门第7章 Spark Streaming核心概念与编程第8章 Spark Streaming进阶与案例实战第9章 Spark Streaming整合Flume 第10章 Spark Streaming整合Kafka 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础

2021-12-15

Ambari-2.7.4.0+HDP-3.1.4.0安装包-HDP安装包大全

Ambari-2.7.4.0 + HDP-3.1.4.0 （Centos7和Redhat7版本）的网盘下载地址，链接失效可私信，其他版本也可以私信

2021-09-05

cdh6.2.1 + cm6.2.1安装包-cdh安装包大全

cdh6.2.1 + cm6.2.1版本网盘地址，操作系统为Redhat7和Centos7及以上，链接失效可私信，其他版本也可以私信

2021-09-05

cdh6.3.1+cm6.3.1安装包-cdh安装包大全

cdh6.3.1 + cm6.3.1版本网盘地址，操作系统为Redhat7和Centos7及以上，链接失效可私信，其他版本也可以私信

2021-09-05

cdh6.3.2 + cm6.3.2安装包-cdh安装包大全

cdh6.3.2 + cm6.3.2版本网盘地址，操作系统为Redhat7和Centos7及以上，链接失效可私信，其他版本也可以私信

2021-07-16

Ambari-2.7.3.0+HDP-3.1.0.0-Ubuntu安装包-HDP安装包大全

Ambari的Ubuntu版本，版本号Ambari-2.7.3.0+HDP-3.1.0.0-Ubuntu

2021-07-16

Ambari-2.7.3.0 + HDP-3.1.0.0安装包-HDP安装包大全

Ambari-2.7.3.0 + HDP-3.1.0.0 （Centos7和Redhat7版本）的网盘下载地址，链接失效可私信，其他版本也可以私信

2021-07-16

Ambari和HDP下载网盘地址(Ambari-2.5.2.0 + HDP-2.6.2.14)

Cloudera收费之后，CDH和HDP都需要订阅之后，才能下载，这里是网盘地址，大家可以进行下载。该网盘内容是：Ambari-2.5.2.0-centos7.tar.gz，HDP-2.6.2.14-centos7-rpm.tar.gz，HDP-UTILS-1.1.0.21-centos7.tar.gz，绝对真实。。。。。。一定要注意：其他版本如Ambari-2.7.3.0 + HDP-3.1.0.0，Ambari-2.7.4.0+HDP-3.1.4.0，Ambari-2.7.5.0 + HDP-3.1.5.0版本可以私信我。其他版本一定要联系博主，否则下载错误，不负责，链接失效也可以私信我。

2021-03-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Ambari-2.7.5.0 + HDP-3.1.5 （Centos7和Redhat7版本）的网盘下载地址 ，链接失效可私信

MergeODSTaskOnLine.scala

Ambari-2.6.2.2 + HDP-2.6.5 （Centos7和Redhat7版本）的网盘下载地址

clickhouse_中文官方文档

Spark Streaming实时流处理项目实战视频网盘下载

Ambari-2.7.4.0+HDP-3.1.4.0安装包-HDP安装包大全

cdh6.2.1 + cm6.2.1安装包-cdh安装包大全

cdh6.3.1+cm6.3.1安装包-cdh安装包大全

cdh6.3.2 + cm6.3.2安装包-cdh安装包大全

Ambari-2.7.3.0+HDP-3.1.0.0-Ubuntu安装包-HDP安装包大全

Ambari-2.7.3.0 + HDP-3.1.0.0安装包-HDP安装包大全

Ambari和HDP下载网盘地址(Ambari-2.5.2.0 + HDP-2.6.2.14)

Ambari-2.7.5.0 + HDP-3.1.5.0网盘地址.zip

零基础Python入门--课件和课程代码.tar.gz

VMware-vSphere6.0-服务器虚拟化部署安装文档word版.zip

CDH5.16.2和CM5.16.2安装包网盘地址.zip

韩顺平_Scala语言核心编程 .zip

SecureCRT6.6

空空如也

Ambari-2.7.5.0 + HDP-3.1.5 （Centos7和Redhat7版本）的网盘下载地址，链接失效可私信