- 博客(63)
- 资源 (16)
- 收藏
- 关注
原创 spark本地项目报错:Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
spark本地项目报错:Could not locate executable null\bin\winutils.exe in the Hadoop binaries.idea本地运行spark程序是报错java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apache.hadoop.util.Shell.getQualifiedBinPath(She
2021-12-21 15:10:44 1809 1
转载 JDBC连接池
DBCP的jar包官网下载Pool的jar包官网下载Collections的jar包官网下载Logging的jar包官网下载mysql-connecor的jar包官网下载package utils;import com.mysql.cj.jdbc.Driver;import org.apache.commons.dbcp2.BasicDataSource;import java.sql.Connection;import java.sql.ResultSet;import java.
2021-05-17 17:18:36 326
原创 flume-sink报错 : close() called when transaction is OPEN - you must either commit or rollback first
启动flume agent时报错(SinkRunner-PollingRunner-DefaultSinkProcessor) [ERROR - org.apache.flume.SinkRunner$PollingRunner.run(SinkRunner.java:158)] Unable to deliver event. Exception follows.java.lang.IllegalStateException: close() called when transaction is OP
2021-05-13 14:52:33 1016
原创 Spark Streaming(十二)基于Spark Streaming&Flume&Kafka打造通用流处理平台
通用流处理平台整合日志输出到Flume1. pom.xml2. 结合log4j产生日志3. 编写Flume配置文件 streaming.conf4. Flume启动5. 配置log4j.properties6. 启动IDEA程序,查看日志接收情况整合Flume到Kafka1. 启动zookeeper2. 启动kafka3.查看Kafka的topic列表4.创建一个新的topic5.编写Flume配置文件(streaming2.conf)6.启动Flume agent7.启动kafka消费者8.启动IDEA程
2021-05-12 10:23:28 359
原创 Spark Streaming整合Kafka实战二
Spark Streaming整合Kafka实战二Spark Streaming整合kafka的第二种方式1. Direct Approach (No Receivers)优点:缺点:2. 偏移量解决方案自动提交偏移量手动提交偏移量Spark Streaming整合kafka的第二种方式1. Direct Approach (No Receivers)这种新的不基于Receiver的直接方式,是在Spark 1.3中引入的,从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后,这种方
2021-05-10 20:04:21 2897 8
原创 Spark Streaming实时流处理项目实战(十一)Spark Streaming整合Kafka实战一
Spark Streaming整合Kafka实战Spark Streaming对kafka的支持Spark Streaming整合kafka的两种方式receiver方式:基于线程拉取数据direct方式:直接连接模式1.Receiver-based ApproachSpark Streaming对kafka的支持spark streaming官网链接:https://spark.apache.org/docs/2.2.0/streaming-kafka-integration.htmlSpark
2021-05-10 17:03:55 468 4
原创 Hbase伪分布式安装
Hbase伪分布式安装1.解压hbase安装包2.配置环境变量3.修改hbase配置文件1.hbase-env.sh2.hbase-site.xmlhbase-site.xml 配置参数解析修改regionservers4. 启动1.解压hbase安装包tar -zxvf hbase-1.2.6-bin.tar.gz -C /opt/module2.配置环境变量vim /etc/profileexport HBASE_HOME=/opt/module/hbase-1.2.6export PA
2021-05-10 13:00:55 2513 3
原创 Kafka单节点部署及使用
Kafka单节点部署及使用1.下载2.上传解压3.修改配置文件4.配置环境变量修改zookeeper配置6.启动kafka6.测试创建topic查看kafka中所有topic信息创建生产者创建消费者1.下载从官网下载kafka,由于测试需要,我下载的是kafka_2.11-0.9.0.1.tgz2.上传解压将安装包上传到/opt/software目录,并解压tar -zxf kafka_2.11-0.9.0.1.tgz -C /opt/module/3.修改配置文件创建logs目录[r
2021-05-08 15:40:19 656
原创 记一次Spark Streaming 整合Flume-Pull方式报错
Spark Streaming从flume 中使用Pull拉取数据时,报如下错误: 12:18:35 INFO node.Application: Starting Sink spark-sink 12:18:35 INFO node.Application: Starting Source netcat-source 12:18:35 INFO source.NetcatSource: Source starting 12:18:35 INFO sink.SparkSink: Starting S
2021-05-05 12:36:36 169 1
原创 Spark Streaming实时流处理项目实战(十)Spark Streaming整合Flume实战二
Spark Streaming整合Flume实战二基于拉方式:Pull-based Approach using a Custom Sink配置步骤基于拉方式:Pull-based Approach using a Custom SinkSpark Streaming 基于拉方式处理 Flume-ng 数据源(Pull-based Approach using a Custom Sink)这种方式不是 Flume 直接推送数据到 SparkStreaming ,这种方法运行了一个如下所示的 Flume
2021-05-05 12:28:21 299
转载 IDEA搭建spark maven项目的 pom.xml文件配置
pom.xml文件配置如下<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/m..
2021-05-04 10:49:57 2619
原创 Spark Streaming实时流处理项目实战(十)Spark Streaming整合Flume实战一
一、简介Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。二、推送式方法-Push在推送式方法 (Flume-style Push-based Approach) 中,Spark Streaming 程序需要对某台服务器的某个端口进行监听,Flume 通过 avro Sink 将数据源源不断推送到该端口。三、基于拉方式处理-PullSpar
2021-04-30 16:00:33 364
原创 jdbc字符串拼接单引号和双引号问题
jdbc中,字符串拼接的问题JDBC中的sql语句单引号和双引号,双引号是为了表示字符串,这个很容易懂。 出现单引号一般是需要对数据库执行更新操作(更新字段或者插入数据)或者查询操作时,出现了字符串。 在数据库中,字符串是用一对单引号括起来的,整型不用。而这种拼接的方式最主要的目的就是将单引号中的值替换为变量,在sql语句被执行时将解析这些变量再将其替换为需要的数据,这样就比固定值更加灵活。String sql="select * from users where "+"username='"+user
2021-04-28 15:35:46 2271
原创 Spark Streaming实时流处理项目实战(九)Spark Streaming进阶
Spark Streaming进阶带状态的算子带状态的算子updateStateByKey
2021-04-27 16:12:14 220
原创 Ambari+HDP+HDP-UTILS下载地址大全
Cloudera收费之后,CDH和HDP都需要订阅之后才能下载HDP下载地址:https://download.csdn.net/download/weixin_36815898/16104515CDH下载地址:https://download.csdn.net/download/weixin_36815898/15561728
2021-04-26 11:24:24 1185
原创 Spark Streaming实时流处理项目实战(八)Spark Streaming核心
Spark Streaming核心核心概念1. StreamingContextTransformationsOutput Operations实战案例核心概念1. StreamingContextTransformationsOutput Operations实战案例
2021-04-25 17:15:35 601
原创 MySQL-JDBC&ODBC&下载
MySQL-JDBC&ODBC&下载jdbc下载odbc下载jdbc下载下载网址1. 点击Archives2. 选择相应的版本,系统选择Platform Independent,下载zip包下载后,解压zip,文件夹中mysql-connector-java-5.1.27-bin.jar就是mysql的jdbc包了。odbc下载下载网址选择相应的版本即可下载...
2021-04-11 12:34:14 218
原创 Ubuntu16.04安装MySQL
Ubuntu16.04安装MySQL 1、下载安装包 2、安装 3、登录mysql 1、下载安装包下载网址选择DEB Bundle,点击右侧Download。 2、安装将安装包上传到服务器,解压安装顺序dpkg -i mysql-common_5.7.22-1ubuntu16.04_amd64.debdpkg-preconfigure mysql-community-server_5.7.22-1ubuntu16.04_amd64.debdpkg -i libmysqlclient20_
2021-04-09 20:41:28 850
原创 hadoop伪分布式集群搭建
hadoop伪分布式集群搭建一、关闭防火墙二、关闭selinux三、安装jdk 四、修改主机名、hosts 五、hadoop安装及配置1、将hadoop安装包上传到 /opt 目录下2、解压安装包4、配置hdfs-site.xml5、配置mapred-site.xml6、配置yarn-site.xml7、配置slaves8、配置Hadoop环境配置9、创建core/hdfs-site.xml里配置的路径10、Hadoop的初始化11、启动hadoop12、访问hadoop的webUI界面一、关闭防火墙s
2021-04-06 17:07:10 1565
原创 gbase报错总结(持续更新)
gbase报错总结文件入库文件入库执行load语句时,报I/O 错误gbase@gbase01:~$ gccli -uroot -Dssbm -vvv -e "load data infile 'sftp://gbase:gbase123@172.16.227.110//opt/ssbm/data/lineorder.tbl' into table lineorder data_format 3 fields terminated by '|';"--------------load data i
2021-04-01 10:29:54 5220
转载 ssh互信脚本
ssh互信脚本ssh 互信脚本1. 检测本地是否有秘钥文件 1.1 没有则生成秘钥文件2. 检测是否安装 expect 命令 2.1 没有则安装 expect3. 循环主机列表 3.1 将本机公钥发送到主机列表中的所有主机 3.2 检测列表中的主机是否有秘钥文件 3.2.1 没有则生成秘钥文件 3.2.2 检测本机 authorized_keys 文件中是否包含远程主机公钥 3.2.2.1 没有则将远程主机公钥添
2021-03-31 10:07:23 373
原创 SSBM数据模型基准测试
这里写目录标题1、模型介绍2、生成数据步骤3、数据库建表1、模型介绍SSB(Star Schema Benchmark)是麻省州立大学波士顿校区的研究人员定义的基于现实商业应用的数据模型,业界公认用来模拟决策支持类应用,比较公正和中立。学术界和工业界普遍采用它来评价决策支持技术方面应用的性能。全方位评测系统的整体商业计算综合能力,对厂商的要求更高。在银行信贷分析和信用卡分析、电信运营分析、税收分析、烟草行业决策分析中都有广泛的应用。SSB基准测试包括:1个事实表:lineorder4个维度表
2021-03-30 16:32:14 1648
原创 BI工具Meatbase的安装与使用
目录一、Meatbase安装二、使用Meatbase连接其他数据库三、制作图表一、Meatbase安装下载:官网【https://www.metabase.com/start/】也可以下载汉化版:【http://www.bkill.com/download/155614.html】解压完成后会是一个jira包:metabase.jar命令行启动服务:java -jar metabase.jar当显示访问地址时,说明启动成功,在浏览器中输入访问网址,http://localhost:3000/
2021-03-27 15:27:27 860
原创 记一次kettle连接mysql报错,解决方法
记一次kettle连接mysql报错错误连接数据库 [158Mysql] : org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to connect to the databaseError connecting to database: (using class org.gjt.mm.mysql.Driver)Access denied for user 'root'@'172.1
2021-03-21 17:42:19 2306 2
原创 Kettle7.1版本下载地址
https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.1/
2021-03-21 15:49:26 2657
原创 Spark Streaming实时流处理项目实战(七-2)粗粒度&细粒度原理
粗粒度&细粒度原理 粗粒度 细粒度 粗粒度上图是Spark Streaming粗粒度工作示意图1.工作原理:(1)Spark Streaming接收到实时数据流(data stream)(2)Spark Streaming把数据按照指定的时间段切成一片片小的数据块(小批次)(3)然后Spark Streaming把小的数据块传给Spark Engine处理(4)Spark Engine处理后,输出处理后的数据(processed result) 每个应用程序的运行环境由一个Dr
2021-03-13 13:50:05 246
原创 Linux下普通用户登录时出现 -bash-4.2$
记一次我是用root用户su - hdfs时出现-bash-4.2$[root@hadoop101 ~]# su - hdfssu: warning: cannot change directory to /var/lib/hadoop-hdfs: Permission denied-bash: /var/lib/hadoop-hdfs/.bash_profile: Permission denied-bash-4.2$ exitlogout-bash: /var/lib/hadoop-hdfs
2021-03-11 14:34:47 2024
原创 CDH安装Spark2后执行spark-shell报错
CDH集群,使用CM安装完Spark2,使用spark2-shell报错报错信息如下[root@hadoop103 ~]# spark2-shellSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).21/03/10 19:53:53 ERROR spark.SparkContext: Error
2021-03-10 20:36:44 300
原创 执行spark程序报错: org.apache.spark.Logging
执行spark程序报错:Caused by: java.lang.ClassNotFoundException: org.apache.spark.LoggingSpark Streaming在使用spark2自带的jar包进行wordcount统计时,出现以下报错root@hadoop103 jars]# spark2-submit --master local[2] \> --class org.apache.spark.examples.streaming.NetworkWordCount
2021-03-10 15:23:41 2167
原创 CDH集群 无法找到主机的NTP 服务,或该服务未响应时钟偏差请求
记一次DataNode节点发生down机,ntp服务重启,CM报错:此角色的主机的运行状况为不良,一些运行状况测试不良:时钟偏差,重启Manager server都不行,最后,重启了一个agent,命令重启cm agernt命令systemctl restart cloudera-scm-agent重启cm server命令systemctl restart cloudera-scm-server这里只重启agent,重启完成后,Cloudera Management Service就已经变
2021-03-10 09:30:07 448
原创 Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStreamCDH5.16.2执行spark-submit或者spark-shell 时报错[root@hadoop103 ~]# spark-submitException in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStre
2021-03-09 15:58:03 4684
转载 Hadoop实战-中高级部分 之 HDFS原理 架构和副本机制
Hadoop实战-中高级部分 之 HDFS原理 架构和副本机制Hadoop RestFulHadoop HDFS原理1Hadoop HDFS原理2Hadoop作业调优参数调整及原理Hadoop HAHadoop MapReduce高级编程Hadoop IOHadoop MapReduce工作原理Hadoop 管理Hadoop 集群安装Hadoop RPC第一部分:当前HDFS架构详尽分析HDFS架构•NameNode•DataNo...
2021-03-09 10:25:47 193
原创 Spark Streaming实时流处理项目实战(七-1)Spark Streaming入门
Spark Streaming入门概述应用场景集成Spark生态系统的使用Spark Streaming发展史 词频统计概述Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。数据可以从像卡夫卡,室壁运动,或TCP套接字许多来源摄入,并且可以使用与像高级别功能表达复杂的算法来处理map,reduce,join和window。最后,可以将处理后的数据推送到文件系统,数据库和实时仪表板。实际上,您可以在数据流上应用Spark的 机器学习和 图形处理算
2021-03-08 20:25:20 770 2
原创 Spark Streaming实时流处理项目实战(六)使用IDEA搭建Spark Streaming开发环境
使用IDEA搭建Spark Streaming开发环境1、pom.xml中添加对应的依赖1、pom.xml中添加对应的依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht
2021-03-05 17:34:07 479 1
原创 IDEA中Dependencies红色波浪线报错的解决办法
IDEA中Dependencies红色波浪线报错(缺少Dependency)的解决办法记录一次,在pom文件导入依赖时,Maven里的Dependencies中有时候会有红色波浪线:com.amazonaws:aws-java-sdk-bundle、经过网上查找,终于找到了解决办法,而且还很有效1、将pom.xml文件中对于有波浪线的依赖,将其<dependency></dependency>标签从pom.xml中删除,保存后,点击Reimport从上图可以看..
2021-03-05 17:26:16 6957 2
转载 Error:java: Compilation failed: internal java compiler error的问题
idea中解决Error:java: Compilation failed: internal java compiler error的问题项目中,使用gradle做项目构建,当我们想更改JDK的版本时,报以下错误:Information:Using javac 1.8.0_111 to compile java sourcesInformation:java: javacTask: 源发行版 1.8 需要目标发行版 1.8Information:java: Errors occurred wh
2021-03-05 16:58:43 260
原创 IDEA使用Maven Helper解决Maven依赖冲突
有时候在pom文件中添加依赖时,会出现依赖冲突1、什么是依赖冲突简单来说就是现在你的项目中,使用了两个Jar包,分别是A和B。现在A需要依赖另一个Jar包C,B也需要依赖C。但是A依赖的C的版本是1.0,B依赖的C的版本是2.0。这时候,Maven会将这1.0的C和2.0的C都下载到你的项目中,这样你的项目中就存在了不同版本的C,这时Maven会依据依赖路径最短优先原则,来决定使用哪个版本的Jar包,而另一个无用的Jar包则未被使用,这就是所谓的依赖冲突2、解决方案:使用IDEA安装Mave
2021-03-05 15:54:11 287
原创 查看hadoop版本
输入hadoop version[root@hadoop101 ~]# hadoop versionHadoop 2.6.0-cdh5.16.2Subversion http://github.com/cloudera/hadoop -r 4f94d60caa4cbb9af0709a2fd96dc3861af9cf20Compiled by jenkins on 2019-06-03T10:41ZCompiled with protoc 2.5.0From source with check
2021-03-04 17:42:53 4900 1
原创 Linux里安装虚拟机后配置双网络
Linux安装虚拟机后,如何配置ip?1、使用vnc连接到服务器桌面,打开VMware2、选择Edit→Virtual Network Editor3、设置桥接模式,选择使用的网卡em14、添加网卡:点击左侧虚拟机,右键选择Settings→Network Adapter→Add →Network Adapter →Finish,如果已经设置好NAT网络了,需要将这个网卡先删掉,一会配置完之后再添加回来即可5、选择Custorm,然后点击save保存
2021-03-04 17:11:24 419 1
原创 Linux下如何查看哪个进程占用内存多?
1、top top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器 可以直接使用top命令后,查看%MEM的内容。可以选择按进程查看或者按用户查看,如想查看oracle用户的进程内存使用情况的话可以使用如下的命令: $ top -u oracle 内容解释: PID:进程的ID USER:进程所有者 PR:进程的优先级别,越小越优先被执行 NInice:值 VIRT:进程占用的虚拟内存 RES:
2021-03-04 11:25:48 2369 1
Ambari-2.7.5.0 + HDP-3.1.5 (Centos7和Redhat7版本)的网盘下载地址 ,链接失效可私信
2023-03-10
Ambari-2.6.2.2 + HDP-2.6.5 (Centos7和Redhat7版本)的网盘下载地址
2022-05-12
Spark Streaming实时流处理项目实战视频网盘下载
2021-12-15
Ambari-2.7.4.0+HDP-3.1.4.0安装包-HDP安装包大全
2021-09-05
cdh6.2.1 + cm6.2.1安装包-cdh安装包大全
2021-09-05
cdh6.3.1+cm6.3.1安装包-cdh安装包大全
2021-09-05
cdh6.3.2 + cm6.3.2安装包-cdh安装包大全
2021-07-16
Ambari-2.7.3.0+HDP-3.1.0.0-Ubuntu安装包-HDP安装包大全
2021-07-16
Ambari-2.7.3.0 + HDP-3.1.0.0安装包-HDP安装包大全
2021-07-16
Ambari和HDP下载网盘地址(Ambari-2.5.2.0 + HDP-2.6.2.14)
2021-03-25
Ambari-2.7.5.0 + HDP-3.1.5.0网盘地址.zip
2021-03-11
CDH5.16.2和CM5.16.2安装包网盘地址.zip
2021-03-04
韩顺平_Scala语言核心编程 .zip
2021-02-24
SecureCRT6.6
2020-05-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人