自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

蚂蚁

个人邮箱:hyx@hyxpersion.com

  • 博客(171)
  • 论坛 (7)
  • 收藏
  • 关注

原创 菜鸡开发的日常踩坑记录

开发踩坑记录,不定时更新日常踩坑记录注意 单词拼写!!!20200207 mybatis plus 自带insert插入异常 sql injection violation解决方法:使用逆向工程脚本时,生成的映射实体类在下面的注解会多table:删除即可@TableName(“table:ts_app_oracle_apply”)20200209 数据库字段自动更新生成问题异常描述:更新数据时,个别时间字段没有进行更新,但是更新操作执行完成后,不该被更新的字段更新了解决方法: 数据库中,

2020-05-09 17:23:03 553

原创 解决Spring Boot无法加载thymeleaf静态资源

在spring boot中使用thymeleaf开发前端代码时遇到的问题集成thymeleaf后,所有的静态资源,只能加载一个index页面其他页面,js,css,都无法加载显示错误信息为Whitelabel Error PageThis application has no explicit mapping for /error, so you are seeing this as a...

2020-01-20 15:07:39 878

原创 Spark Streaming使用window函数与reduceByKeyAndWindow实现一定时间段内读取Kafka中的数据累加;reduceByKeyAndWindow函数的两种使用方式

使用window函数实现时间段内数据累加import kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.kafka.KafkaUtilsimport...

2019-08-11 21:58:36 475 2

原创 Spark Streaming中的检查点 Checkpoint简介;如何使用检查点存储/恢复处理结果

检查点 Checkpoint功能保存 每批中 state信息,累加加销售营业额保存 没冲从Kafka topic 中读取数据的offset保存DStream的来源和DStream处理函数和输出函数什么时候需要使用Checkpoint有状态转换的用法 - 如果在应用程序中使用了updateStateByKey或reduceByKeyAndWindow(with inverse func...

2019-08-11 21:51:29 346

原创 模拟实时区域订单金额统计:SparkStreaming从Kafka中读取数据,设置检查点,处理数据后,并将结果存到Redis中,并实现执行优化

实现思路第一步获取StreamingContext对象,因为要使用检查点恢复数据,所以不能使用new StreamingContext的方法获取对象,要使用StreamingContext.getOrCreate建立对象创建StreamingContext对象,使用了贷出模式 ——贷出函数的方式来创建从Kafka的生产者端读取数据进行分析读取数据的方式采用Direct方式读取数据处理读...

2019-08-11 21:51:16 302

翻译 Spark Streaming中读取数据的两种方式:基于Receiver的方法,基于Direct方法

基于Receiver的方法——基于Receiver的方法此方法使用Receiver接收数据。 Receiver是使用Kafka高级消费者API实现的。 与所有接收器一样,从Kafka通过Receiver接收的数据存储在Spark执行器中,然后由Spark Streaming启动的作业处理数据。但是,在默认配置下,此方法可能会在失败时丢失数据(请参阅接收器可靠性。为确保零数据丢失,您必须在Spa...

2019-08-11 20:27:15 294

原创 kafka环境的安装与简单使用

kafka介绍Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统...

2019-08-10 22:02:18 93

原创 Spark Streaming工作步骤详解

producer生产者产生数据Spark Streaming的Driver让一个Executor运行一个Task接收器每隔一段时间主动向生产者拿数据根据时间间隔:批处理时间间隔将DStream分割为多分RDD数据集合根据blockInterval:每个Block时间间隔将每个RDD分割为不同的块Block将块Block 的分割返回给DriverDriver运行job分析数据...

2019-08-10 21:32:58 140

原创 SparkStreaming简单介绍;SparkStreaming处理数据流程;SparkStreaming运行工作原理与简单优化

SparkStreaming简单介绍流式数据处理(stream processing)要处理的数据就像流水一样,源源不断的产生数据,需要实时进行处理对SparkCore的高级API的封装,将流式的数据切分为小的批次batch(按照时间间隔)的数据,然后使用SparkCore进行处理返回数据集合类型:DStream集合,List<RDD>StreamingContext:上下文...

2019-08-10 21:02:25 779

原创 SparkStreaming实现实时WordCount程序的两种方法并将数据写入Mysql中:使用工具netcat

首先需要了解的几个类StreamingContext如何读取数据DStream处理数据函数DStream里面存储着很多RDDPairDStreamFunctions当处理的数据类型是二元组的时候,DStream自动隐式转换为PairDStreamFunctionsRDD输出函数,将结果保存到外部系统def foreachFunc: (RDD[T], Time) =&gt...

2019-08-10 20:28:44 118

原创 SparkSql介绍与基本使用;Spark Sql编程:优化点;集成Spark集成使用Hvie中的数据

Spark SQL介绍属于Spark框架中的一个模块相当于Hive框架(提供SQL,使用户不需要编写MapReduce程序),功能远远大于HiveHive 2.x版本,底层推荐使用Spark美团,JD,饿了么,链家等一些大型公司都在使用SparkSql进行数据分析Spark SQL是什么(1)最初的功能取代Hive框架,提供SQL语句,将SQL语句转成SparkCore程序,提交运行...

2019-08-10 19:14:22 95

原创 一些关于人工智能,机器学习,机器学习算法的零碎知识点

人工智能企业中的大佬们会干点啥算法 -函数这个有点悬读论文&实现之工程这个我还能干一丢丢 机器学习工程师(或调参工程师) 运行已有算法,训练业务数据,获得工作模型。 将数据 ->算法(函数) -> θ的值 调用API(调用某个类中的方法) ,调整不同的参数,获取更好的 θ值 如何获取算法(函数)中参数的值,最为关键 ...

2019-08-09 21:58:49 316

原创 初识机器学习开发模块Spark MLlib的使用与优化

废话刷新闻偶尔会看到一些人工智能与机器学习的新闻感觉很高大尚的样子,就想去了解一下了解完之后,发现这是真的高科技,非常高大尚自己现在的实力是铁定搞不了了的只能去玩一玩大佬们包装好的相关工具了机器学习机器学习可以理解成是生产算法的算法。需要人来先做特征提取,然后在把特征向量化后交给机器去训练。机器学习的分类传统机器学习分为 监督学习 和 无监督学习。Spark中使用MLlib中...

2019-08-09 21:26:28 172

原创 Spark写入数据到本地时报错java.lang.UnsatisfiedLinkError

在IDEA中运行Spark程序往本地写入数据时有可能会报java.lang.UnsatisfiedLinkError的错误解决方案1:配置Hadoop Common环境变量配置这个变量的原因是因为Windows下运行大数据环境有可能会出现兼容性问题如果不配置Spark相应版本的Hadoop Common的版本,有可能就会报错所有下载Spark对应版本的Hadoop Common...

2019-08-08 21:56:57 325

原创 Spark:自定义Schema信息将数据集合转换为Spark sql中的DataFrame

使用场景在Spark中可以直接读取数据文件但是读取到的数据的每一项数据是没有数据类型的而且不能使用数据像使用数据表中的字段名那样使用数据可以在读取数据的时候对读取到的数据进行设置转换设置转换后使用数据可以像使用数据库表中的字段那样通过字段名获取数据代码实现import java.util.Propertiesimport org.apache.spark.sql.types._...

2019-08-07 21:46:15 413

原创 使用Spark分析HBase中存放的数据的步骤总结

第一步:读取数据分析数据的第一步即是读取数据读取的数据一般是经理过ETL的数据我们可以直接对读取到的数据进行分析如果是读取HBase表中的数据时一般将表名设置为输入参数这样就可以分析不同时段的相同类型的数据第二步:数据过滤在这一步,通常对读取到的数据进行过滤或取样操作有两种方法方法1:使用RDD高阶函数对读取到的数据进行过滤或格式化该方法主要使用的是RDD集合的高阶函数,如m...

2019-08-06 22:09:20 497

原创 使用Spark对数据进行ETL并存放到HBase中流程总结

ETLETL用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程使用场景要对某些日志数据文件进行分析时ETL这一步是避免不了的因为采集到的日志数据,总会有一部分脏数据这部分脏数据可能会对后续的指标分析造成影响所以要对数据进行一些操作,将数据转换成比较有规律的我们想要的数据使用Spark对数据进行ETL操作的一些步骤总结第一...

2019-08-06 21:35:00 1122

原创 使用Spark对ETL数据到HBase中可以做的优化点

优化一:HBase表的优化在建立HBase表时,提前设置好表的数据存放的压缩的方式提前建立region分区设置读取表中的数据不缓存优化二:Spark程序的优化优化场景Spark中有Driver与ExecutorExecutor执行TaskExecutor执行Task的时候,有可能会用到Driver中的数据那么就需要Driver将数据发送给ExecutorExecutor中如...

2019-08-06 20:39:43 183

原创 Spark中使用take截取数据时报错:java.io.NotSerializableException

发生场景在使用Spark读取HBase中的数据时不使用take函数截取数据时读取到的HBase中的数据可以正常输出但是使用take操作截取数据时就会抛出异常java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable发生原因Spark分为两大角色Driver与Executor...

2019-08-05 21:42:43 324

原创 Spark向HBase中写入或读取数据

Spark读取HBase中的数据import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.{CellUtil, HBaseConfiguration}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache....

2019-08-05 20:23:40 560

原创 Spark任务调度,Job的调度

Job,Stage,Task的区分DAG调度DAG:有向无环图每个job划分为多个stage(阶段)(a)倒推法划分 -栈从Job的最后一个RDD向前推依赖关系(b)判定子RDD和父RDD之间的依赖关系宽依赖,产生shuffle,划分stageTaskScheduler 任务调度task的调度调度各个Stage中Task的执行,按照从前往后顺序执行stage中的task即...

2019-08-04 21:33:46 297

原创 Spark application运行hadoop中的Yarn上;Spark 的部署模式;运行Spark application到Spark Standalone;spark on yarn架构

准备工作启动hadoop相关节点配置好spark的配置文件spark-env.shJAVA_HOMESCALA_HOMEHADOOP_CONF_DIR 提交命令#将Spark-shell运行在Yarn集群上#资源的调优bin/spark-shell \--master yarn \--deploy-mode client \--driver-cores 1 \ # 设置...

2019-08-04 21:15:44 214

原创 Spark中实现二次排序;解决数据倾斜问题代码实现;Spark性能优化代码实现

二次排序简单理解,就是先对第一个字段进行排序,如果第一个字段相相等,按照第二个字段排序案例对下面的数据进行二次排序aa 78bb 98aa 80cc 98aa 69cc 87bb 97cc 86aa 97bb 78bb 34cc 85bb 92cc 72bb 32bb 23代码实现实现思路1:读取数据2:每一行为一个二元组3:根据key分组,合并v...

2019-08-04 20:57:01 134

原创 Spark历史服务器配置与使用

介绍spark也有历史服务器,监控已经运行完成的spark applicationstart-history-server.sh(1)将application运行的日志信息保存起来MapReduce运行的时候,启动了日期聚集功能:将日志信息 上传到HDFS目录(2)启动一个服务读取日志信息,以便前端页面展示MrHistoryServer配置Spark HistoryServer1....

2019-08-04 20:26:08 579 2

原创 将自己编写的的jar包放到本地或Spark standalone上运行;设置每个Spark application运行的资源

本地运行jar包将自己的jar包上传到Linux中运行Spark的Master节点与Worker节点在Spark目录下运行以下命令bin/spark-submit \--class com.huadian.bigdata.spark.core.TrackLogAnalyseSpark \spark-learning-1.0-SNAPSHOT.jar \local[2]结果Sp...

2019-08-02 21:23:30 232

原创 Spark案例:分析网站pv,uv,并将处理结果存放到MySQL数据库中;Spark standalone:框架自身带的、分布式集群资源管理和任务调度框架

Spark案例:分析网站每日pv,uv,并将处理结果存放到MySQL数据库中pv分析:主要分析url数据是否为空uv分析:根据数据中的用户id或者ip地址分析结果存放到MySQL表中时,需要先建立数据表使用UNIO与JOIN可以产生不同的结果表根据需求使用代码实现import java.sql.{Connection, DriverManager, PreparedStatemen...

2019-08-02 20:51:07 120

原创 Spark中RDD的依赖分类;Spark中的RDD Transformation函数、RDD Action函数;Spark 框架的优势;Spark性能优化:RDD方法优化

RDD依赖分类宽依赖操作产生类似与MapReduce中shuffle的操作– 子 RDD 的每个分区依赖于所有父 RDD 分区– 对单个 RDD 基于 key 进行重组和 reduce ,如 groupByKey 、 reduceByKey– 对两个 RDD 基于 key 进行 join 和重组,如 join、窄依赖操作不会产生类似与MapReduce中shuffle的操作– 子 ...

2019-08-02 20:30:05 116

原创 Spark中的RDD,RDD的创建方式,RDD中函数的分类

RDD是什么就是一个集合在使用的时候,就当做为Scala集合类中List列表实质分布式 存储数据 集合abstract class RDD[T: ClassTag]A Resilient(弹性) Distributed(分布式) Dataset (RDD)Represents(代表) an immutable(不可变), partitioned(分区) collection of e...

2019-08-01 21:54:59 136

原创 使用Scala语言操作实现Spark处理数据,实现wordcount程序;分析用户行为数据统计用户停留时间段

使用环境Windows下使用IDEA开发工具Windows环境配置了JDK1.8环境与Scala环境准备事项本文WordCount案例预实现将Linux中的HDFS中的文件读取出来统计字符出现次数,并将结果存放到HDFS目录中配置Hadoop环境中的权限修改hadoop中的配置文件hdfs-site.xml将Hadoop中的配置文件存放到IDEA项目中的resource中ID...

2019-08-01 21:51:01 296

原创 Spark的简单介绍,安装与简单的使用;spark appliction与MapReduce application的区别

spark是什么Apache Spark™ is a unified analytics engine for large-scale data processing.统一分析引擎为海量数据处理统一:什么样的数据都能处理分析,什么类型的数据都可以处理,实时,离线,流式都可以MapReduce处理数据的流程map,reduce函数将分析的中间结果放在磁盘中,并且后续进行分析数据的时候,再...

2019-08-01 20:54:33 74

原创 自定义Java MapReduce操作HBase数据库导入数据的两种方式

自定义实现将一张表中的数据读出,处理后存入到另外一张表中以下操作需要预先在HBase中创建目标表import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.hbase.Cell;import org.apache.ha...

2019-08-01 20:13:16 205

原创 使用HBase中自带的MapReduce操作HBase中的表;将tsv/csv数据导入HBase中的两种方式;HBase使用总结

HBase中导入数据方式创建表以后,我们需要向表中 批量 的插入数据-1.可以调用Java APIPut(单条,多条)-2.使用Mapreduce(1)SQOOP工具,将RDBMS中的数据导入(2)使用自带MapReduce程序(3)自己编写MapReduce使用Sqoop可以将关系型数据库中的数据导入HBase中如果想要导入tsv/csv文件类型的数据HBase提供了一些类,...

2019-07-31 20:38:12 189

原创 使用Java API操作HBase数据库;设置过滤器;设置查询优化;建立压缩预分区表;删除/增加数据

准备事项该案例使用了Maven来管理依赖,下面是pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2019-07-30 21:51:07 232

原创 解决在使用Java API操作HBase中出现的Could not locate executable null\bin\winutils.exe in the Hadoop binaries.错误

在使用Java API操作HBase时,会出现以下错误虽然可以使用API对HBase数据库进行操作,但一直出现这种异常,还是让人很难受的于是设法解决该问题异常产生原因无法在Hadoop二进制文件中找到可执行文件null \ bin \ winutils.exe。这是异常的翻译其实就是空指针异常,那么为什么会产生空指针异常?查找了相关资料后,发现错误出现的原因与位置在操作HBase...

2019-07-30 21:00:36 207

转载 HBase存储在HDFS上目录结构;HBase表中的数据压缩配置

HBase文件存储HBase是基于HDFS存储文件的,所有文件与文件架构都在HDFS文件系统上都在hbase这个目录下这里以1.2.0为例介绍,目录如下:/hbase/.tmp/hbase/WALs/hbase/archive/hbase/corrupt/hbase/data/hbase/hbase.id/hbase/hbase.version/hbase/oldWALs...

2019-07-30 20:19:27 1676

原创 HBASE表的设计;如何将数据迁入到/存储到HBASE表中;HBase中的nameSpace;检索数据的三种办法;使用Sqoop将Mysql中的数据导入HBase中;创建预分区表

HBASE表的设计最关键一点,最重要的一点rowkey的设计 -1.不能重复 -2.前缀匹配原则 -3.热点性 常用倒转字段方法如何将数据迁入到/存储到HBASE表中方式一:批量将数据存储到HBASE表中使用MapReduce或者Spark程序完成SQOOP将RDBMS表中的数据导入到HBASE表中方式二:实时将采集到数据存储到HBASE调用HBase Java AP...

2019-07-29 21:55:34 205

原创 HBase的存储模式(架构)各模块作用解释;Client向HBASE表中写入数据的步骤

想弄清楚HBASE的架构,要先了解下面这几个点HBase的体系结构HBase是主从架构下面是HBase的体系结构HBASE的系统表作用Zookeeper与HMaster对HBASE集群的影响第一点:如果zookeeper Cluster挂掉,整个HBASE集群挂掉,用户不能读写HBASE表中的数据第二点:如果HBASE Master挂掉,暂不会影响HBASE集群的读写短暂时间,...

2019-07-29 21:18:04 177

原创 Linux中安装Hbase,简单使用Hbase帮助命令

HBASE数据库特点nosql数据库 ,列式存储数据,内存存储HBASE表每行数据都有一个主键:rowkey一个表中,包含1个或者多个列簇(Column Family)CF某个字段要属于某个列簇 一个列簇下面可以有百万个列HBASE存储数据的本质可以理解为键值对存储key:rowkey +CF +column +timstampvalue:值是二进制方式存储HBase数...

2019-07-29 20:45:54 700

原创 Scala——模式匹配;Option类(可选类)的使用;样例类的定义与使用;隐式函数实现对象转换

模式匹配模式匹配的功能非常强大,使用恰当的话可以省略很多不必要的操作/** * 模式匹配使用 */object PatternDemo { def main(args: Array[String]): Unit = { judgeGrade("F","zs") val list: List[(String, (String, Int))] = List(("A"...

2019-07-27 21:28:43 100

原创 Scala——Scala的面向对象,如何建立类与构造函数,类的伴生对象,接口的定义与实现,异常处理

Scala中定义没有构造函数的类/** *创建一个类 * -1.属性field,attribute:名词 * -2.方法method/函数function:动词 */class People { /** * 属性定义 */ //当属性使用var声明的时候,编译的时候,会生成Getter和setter方法 var name:String = ...

2019-07-27 21:28:34 127

空空如也

java调用文件返回接口数据获取异常

发表于 2021-03-12 最后回复 2021-03-12

Jmeter二次开发

发表于 2020-04-13 最后回复 2020-04-14

nginx中lua脚本异常

发表于 2020-01-09 最后回复 2020-04-13

IDEA控制台输出字体异常,JPS页面字体异常

发表于 2019-12-17 最后回复 2019-12-22

JIRA任务拆分问题

发表于 2019-11-21 最后回复 2019-11-22

JIRA部署使用心得交流

发表于 2019-11-08 最后回复 2019-11-21

IDEA突然崩了,项目结构里不能配置项目为web项目,tomcat配置选项也没有了

发表于 2019-06-24 最后回复 2019-06-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除