赵厚雄-CSDN博客

原创 org.junit.runner不存在,找不到符号@RunWith(SpringRunner.class)问题解决

采用gradle,编写了一个spring boot的测试类，出现了报错：错误：org.junit.runner不存在,错误：找不到符号@RunWith(SpringRunner.class)在这里还是因为使用了Junit4的RunWith注释，而由于spring boot版本的更新，支持JUnit5了。在这里笔者改为了 Junit5的写法替换RunWith,再次编译正常:@ExtendWith(SpringExtension.class)完整代码段如下，仅做参考：import.

2021-12-30 11:07:15 5649

原创大数据量下mysql的分页查询

总结：为解决此问题效率整理此文： select * from table limit 50000,10，在大数据量下这样写不行。解决方法如下：select a.* from member as a inner join (select id from member where gender=1 limit 300000,1) as b on a.id=b.id;具体细节分...

2019-09-20 08:08:28 643

原创 storm流计算编程实现电话呼叫日志处理

storm是一个免费、开源、分布式、实时计算系统。吞吐量高。每秒每节点百万元组。 storm VS hadoop----------------------------------------------------------- 实时流处理 ...

2019-08-05 09:39:31 397

原创 flink通过sql查询数据的代码实现

flink通过sql查询数据的代码实现import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apach...

2019-07-29 21:42:08 4352

原创 flink streaming 的scala与java版本的单词统计实现

Apache Flink是另一种新一代通用大数据处理引擎，旨在统一不同的数据负载。Flink正试图解决Spark试图解决的同样问题。这两个系统都旨在构建单一平台，您可以在其中运行批处理，流媒体，交互式，图形处理，ML等。因此，flink与Spark的意识形态中间没有太大差别。但是它们在实现细节方面确实存在很大差异。这里介绍单词统计flink的scala版本和java版本的代码实现scala...

2019-07-26 23:20:48 1235

原创 Spark 流计算程序-统计每2秒钟的单词个数-写入文件

Spark 流计算程序-统计每2秒钟的单词个数import java.io.{File, FileOutputStream}import java.util.Dateimport java.text.SimpleDateFormatimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds,...

2019-07-18 18:11:24 312

原创 spark streaming流计算程序，统计每2秒钟的单词个数的scala与java的代码实现

一、非SQL实现1. scala实现spark流计算程序，统计每2秒钟的单词个数1）scala代码部分：import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * spark 流计算程序，统计每2秒钟的单词个数 */object ...

2019-07-15 22:19:35 609

原创 spark sql保存DataFrame到mysql & 从mysql读取数据

在hdfs上存储一个sql文件cust.txt:1,smith,122,bob,133,alex,144,alice,156,mike,261.保存DataFrame到mysqlimport org.apache.spark.sql.SparkSession/** * 将数据框保存成数据库的表中 */object SparkSQLJDBCWriteDe...

2019-07-15 13:46:42 2808

原创 spark sql保存DataFrame成json格式与读取json数据成DataFrame

在hdfs上存储一个sql文件cust.txt:1,smith,122,bob,133,alex,144,alice,156,mike,261.将DataFrame转换为json数据格式import org.apache.sparkimport org.apache.spark.sql.SparkSession/** * 将数据框保存成json数据...

2019-07-15 12:48:06 6509 1

原创 spark sql实现客户订单的做外连接查询java实现

首先用记事本准备两张表数据：customers.txt:1,smith,122,bob,133,alex,144,alice,156,mike,26orders.txt:1,t001,100.9,12,t002,100.3,13,t001,100.6,24,t003,100.7,25,t001,100.1,26,t003,100.1,37,t002,100.1,...

2019-07-15 10:42:50 471

原创 spark sql在scala与java中的代码实现

在编写spark sql代码前，需要新建maven工程，将hadoop下的配置文件core-site.xml和hdfs-site.xml,以及hive中的hive-site.xml拷贝到工程的resource目录下，并在pom.xml中配置jar包信息。pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmln...

2019-07-14 12:06:02 1599

原创 spark累加器实现气温数据的双聚合(max|min)

累加器是用于跟踪和调试的技术，在driver如果需要获取executor的执行结果，可以使用累加器机制。 executor端使用累加器的add方法将结果回传给driver，driver能够进行累计处理。 executor端只能调用add方法，不要访问value. 以下为自定义累加器，通过累加器实现气温数据的双聚合(max|min)。import or...

2019-07-07 14:28:38 215

原创 spark对单词统计算法实现

spark对单词进行统计，可以有独立模式和集群模式，独立模式下可以直接对单词进行统计import org.apache.spark.{SparkConf,SparkContext}object WordCount { def main(args: Array[String]): Unit={ val conf =new SparkConf() conf.setAppName(...

2019-06-15 12:24:36 1030

原创 spark考察线程和任务的对应关系

import org.apache.spark.{SparkConf, SparkContext} /** * RDD再分区 */ object RDDRepartition { def main(args: Array[String]): Unit = { val conf = new SparkConf()...

2019-06-15 12:13:30 486

原创 Spark 核心API

1.SparkConf Spark配置对象，设置各种参数，使用kv类型。2.SparkContext spark主要入口点，代表到spark集群的连接，可以创建 rdd、累加器和广播变量。每个JVM中只能有一个SparkContext，启动新的SparkContext必须stop的原来的。 val rdd1 = sc.textFile()3.R...

2019-06-15 12:12:27 2640

转载 sed流编辑软件安装配置

一般情况下，sed默认提供在大多数的GNU/ Linux发行版。使用该命令，以确定其是否存在于您的系统上。如果没有，那么在基于Debian GNU/ Linux可以使用apt包管理器，如下所示安装sed：[root]# sudo apt-get install sed安装后，确保sed可以通过命令行访问。[root]# sed --versio执行上面的代码，会得到如下结果...

2019-05-25 11:50:22 556

原创 flume与zk的信息传递

1.启动ZK>zkCli.sh -server datanode1:2181 1.1.创建一个flume znode >create /flume 1.2.查看znode >ls /flume[netcat]2.将flume配置文件保存到aa.txt a1.source...

2019-05-12 15:14:29 449

原创 kundera的hbase代码实现

一、介绍什么是Kundera 和JPA1. kundera是一个兼容jpa接口的对象映射器。当前kundera支持的数据库有: Cassandra,MongoDB,HBase,Redis,OracleNoSQL,Neo4j,CouchDB,Dudu,Relational databases,Apache Spark2. JPA是Java Persistence API的简称，...

2019-02-24 00:11:04 465 1

原创 HBase过滤器的代码实现

package hmr.jr.hbase.first;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.HBaseConfiguration;import or...

2019-01-18 23:55:57 371

原创 HBase的hbase-site.xml的基本配置

<?xml version="1.0" encoding="UTF-8"?><configuration> <property>  <name>hbase.rootdir</name>

2019-01-04 17:36:49 5951 5

原创 HBase常用操作代码实现

package hmr.hbase.first;import java.util.Iterator;import java.util.List;import java.util.Map.Entry;import java.util.NavigableMap;import org.apache.hadoop.conf.Configuration;import org.apache....

2019-01-04 17:17:54 412

原创 ZooKeeper常用操作的代码实现

package hmr.jr.zk;import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;import org.apache.zookeeper.Watcher.Ev...

2019-01-01 13:53:17 536

原创启动HBase后在WEBUI看只有一个节点启动，其它节点未启动，抛出org.apache.hadoop.hbase.ClockOutOfSyncException异常

安装配置完Hbase后，先启动zookeeper,然后通过命令start-hbase.sh启动Hbase,发现只有一个节点启动了，查看其启动日志，可以看到它抛出了ClockOutOfSyncException异常，重点是Time difference of 5134210ms > max allowed of 30000ms这句话，具体的异常如下所示：2018-12-31 22:06:4...

2019-01-01 00:08:49 1093

原创 hive笔记

纯笔记：Hive: 读写及管理分布式数据集的机制，使用SQL来读写及管理分布式数据集的机制，是一个数据仓库软件，重在分析过程，对时效性不敏感，只读数据放到hive进行分析。OLAP //online analyze process 在线分析处理OLDP //online transaction process 在线事务处理 RDBMShive 支持三种数据结构： t...

2018-12-20 14:24:38 359

原创 java代码连接MySql不能通过IP访问的解决方法，只能localhost 和 127.0.0.1访问

编写了一段代码测试数据库连接，用本机的各种IP进行测试连接mysql数据库，用127.0.0.1和localhost 访问都是没有问题的，能够正常访问数据库，但是用IP不能访问。经过测试后，找到正确方法贴上。代码如下：package com.jr;import java.sql.Connection;import java.sql.DriverManager;import java...

2018-12-14 23:06:46 2327

转载 Java中的static关键字解析

一.static关键字的用途　　在《Java编程思想》P86页有这样一段话：　　“static方法就是没有this的方法。在static方法内部不能调用非静态方法，反过来是可以的。而且可以在没有创建任何对象的前提下，仅仅通过类本身来调用static方法。这实际上正是static方法的主要用途。”　　这段话虽然只是说明了static方法的特殊之处，但是可以看出static关键字的基本作用...

2018-12-05 11:10:22 154

原创 MR最大气温代码实现及hadoop问题 InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist

第一次运行hadoop jar文件就报错误，从其中找出问题原因：org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuffle does not existhadoop问题描述如下：[hadoop@master bin]$ hadoop jar /soft/sou...

2018-11-18 16:00:26 1164

原创 windows下ant编译生成hadoop-eclipse-plugin插件解决办法

我目前用的hadoop2.9.0版本，之前应该是用hadoop2.6以下的版本的时候，直接从网上下载hadoop-eclipse-plugin-**.jar拷贝到eclipse/plugins下就解决了，后面的版本看网上介绍需要用ant编译生成hadoop-eclipse-plugin-**.jar(**指版本号)文件，如果你在网上下载的jar包放到eclipse下不成功就自己编译...

2018-11-16 10:27:32 2228

原创 Hadoop定义的SequenceFile和MapFile的编程实现

Hadoop定义了SequenceFile 和MapFile两种类型的数据结构以适应Mapreduce编程框架的需要，Map输出的中间结果就是由他们表示的。其中MapFile是经过排序并带有索引的SequenceFile.SequenceFile记录的是key/value对的列表，是序列化后的二进制文件，因此是不能直接查看的，可以通过命令查看内容：hadoop fs -text myseq...

2018-11-06 11:39:03 339

原创 centos(linux)取消屏幕保护锁屏功能

CentOS系统在闲置一段时间后，会启动屏幕保护程序，并要求重新输入密码才能回到桌面，这样导致了有些启动的应用停止了服务，需要重新启动，带来了不必要的重复的繁琐的工作。取消屏幕保护锁屏操作如下：进入到centos桌面，点击system-->preferences-->screensave在弹出的会话框里将Lock screen when screensaver is act...

2018-10-29 08:42:16 4100

原创 centos普通用户解压缩报错：Cannot open: No such file or directory

使用普通用户解压缩文件，在tar命令前需要赋予命令sudo,否则会报Cannot open: No such file or directory错误。就是一个权限问题。sudo是linux系统管理指令，是允许系统管理员让普通用户执行一些或者全部的root命令的一个工具，如halt，reboot，su等等。这样不仅减少了root用户的登录和管理时间，同样也提高了安全性。sudo不是对shell的一...

2018-07-03 09:40:10 22870 6

原创 centos普通用户ssh-keygen后仍需重复输入密码问题

用root用户创建ssh 的时候没有问题，在用普通用户登录后，创建了ssh免密登录后，需要反复输入密码。查找原因后，发现权限不够。[hadoop@master .ssh]$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsaGenerating public/private rsa key pair.Your identification has been sav...

2018-07-03 09:30:33 1229

原创 centos普通用户权限问题解决：hadoop is not in the sudoers file. This incident will be reported.

我在centos下有一个普通用户hadoop,在用hadoop创建文件夹：[hadoop@localhost /] sudo mkdir /soft[sudo] password for hadoop: hadoop is not in the sudoers file. This incident will be reported.问题解决方法：转换到root用户，使用su root命令，...

2018-06-29 10:16:01 8192

原创基于文件的数据结构之SequenceFile实现

Hadoop的sequenceFile为二进制键/值对提供了一个持久数据结构。它可以作为小文件的容器。HDFS和MapReduce是针对大文件优化的，所以通过SequenceFile类型将小文件包装起来，可以获得更高效率的存储和处理。SequenceFile的实现代码：package com.jr.sequencefile;import java.io.IOException;import...

2018-06-04 11:22:55 478

原创 JUnit报错method initializationerror not found的解决方法

我在一个类里先写了testCompress方法，Junit测试正常运行，然后更进一步增加了testBatchCompress()对testCompress方法进行调用，用JUnit测试报method initializationerror not found:错误：提示页面如下：，然后查询解决问题方法，有说在导入junit.jar之后还要导入hamcrest-core-1.3.jar，hamcre...

2018-05-29 12:18:56 8949 5

原创 centos linux系统修改主机名

修改主机名1.修改/etc/sysconfig/network打开终端，输入：vim /etc/sysconfig/networkdatanode2即为主机名，可以根据自己的需要随意更改然后source /etc/sysconfig/network,使修改内容立即生效在终端输入命令测试：可以看到主机名已经修改成功。...

2018-05-21 12:06:48 300

原创 hadoop大数据文件压缩Gzip代码实现

文件压缩有两大好处：减少存储文件所需要的磁盘空间，并加速数据在网络和磁盘上的传输。不同的压缩工具有不同的压缩特性。gzip是一个通用的压缩工具，在空间/时间性能的权衡中，居于其他两个压缩方法之间。bzip2的压缩能力强于gzip,但压缩速度更慢一些。LZO、LZ4和Snappy均优化压缩速度，其速度比 gzip快一个数量级，但压缩效率稍逊一筹。Snappy和LZ4的解压缩速度比LZO高出很多。pa...

2018-05-19 11:00:15 2209

原创 maven配置阿里云仓库

在看视频中，老师推荐使用.oschina的仓库，在cmd命令下使用mvn help system测试失败，通过在网站找到alimaven，能正常从私服上下载，测试成功。下载jar包默认在c盘用户目录下C:\Users\Administrator\.m2\repository<?xml version="1.0" encoding="UTF-8"?><settings xmlns...

2018-05-05 22:37:19 440

转载把windows下的文件夹挂载到linux虚拟机下

有时文件夹在不同的系统的电脑上，如果要两者共同的使用，把windows下的文件夹挂载到linux虚拟机下，那么要怎么办呢！现在我们一起去看看吧！这里的挂载，指的是linux虚拟机可以访问windows系统的指定文件夹，http://包括读写。以下挂载方式，需要安装VMware Tools。安装VMware Tools，右键点击你要启动的l

2017-11-15 07:59:26 7512

原创正确的mysql5.6.24中my.ini配置文件

正确的mysql5.6.24中my.ini配置文件，拿过去修改成你对应的版本号和对应的路径就可以用了my.ini[client]#password =1234 # pipe# socket=mysqlport=3306default-character-set=gbk[mysql]port=3306default-character

2016-08-12 10:31:58 6209