木木统-CSDN博客

转载 Flink 在有赞实时计算的实践

一、前言这篇主要由五个部分来组成：首先是有赞的实时平台架构。其次是在调研阶段我们为什么选择了 Flink。在这个部分，主要是 Flink 与 Spark 的 structured streaming 的一些对比和选择 Flink 的原因。第三个就是比较重点的内容，Flink 在有赞的实践。这其中包括了我们在使用 Flink 的过程中碰到的一些坑，也有一些具体的经验。第四部分是将...

2020-05-04 08:17:34 695

转载 Kafka如何保证消息不丢失不重复

这是转储的一篇文章，前面是我的总结，如果哪错了希望大家能在评论中指出来首先要考虑这么几个问题：消息丢失是什么造成的，从生产端和消费端两个角度来考虑消息重复是什么造成的，从生产端和消费端两个角度来考虑如何保证消息有序如果保证消息不重不漏，损失的是什么下面是文章详情，这里先简单总结一下：消费端重复消费：很容易解决，建立去重表消费端丢失数据：也容易解决，关闭自动提交...

2020-05-03 09:24:47 819

转载 HBase一次客户端读写异常解读分析与优化全过程（干货）

大数据时代，HBase作为一款扩展性极佳的分布式存储系统，越来越多地受到各种业务的青睐，以求在大数据存储的前提下实现高效的随机读写操作。对于业务方来讲，一方面关注HBase本身服务的读写性能，另一方面也需要更多地关注HBase客户端参数的具体意义。这篇文章就从一个具体的HBase客户端异常入手，定位异常发生的原因以及相应的客户端参数优化。案发现场最近某业务在使用HBase客户端读取数...

2020-05-03 09:19:29 808 1

Apache Kafka是一款流行的分布式数据流平台，它已经广泛地被诸如New Relic（数据智能平台）、Uber、Square（移动支付公司）等大型公司用来构建可扩展的、高吞吐量的、高可靠的实时数据流系统。例如，在New Relic的生产环境中，Kafka群集每秒能够处理超过1500万条消息，而且其数据聚合率接近1Tbps。可见，Kafka大幅简化了对于数据流的处理，因此它也获得了众多应用...

2020-05-03 09:12:30 801

原创 windows本地开发flink的maven文件以及简单示例代码

pom包：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="h...

2020-05-01 12:31:36 470

转载 CEP-Flink的复杂事件处理（一）

2020-05-01 11:06:33 800

转载 git在idea中的冲突解决（非常重要）

1.什么是冲突　　冲突是指当你在提交或者更新代码时被合并的文件与当前文件不一致。读起来有点绕，结合下面的案例理解。　　从上面对冲突的定义来看，冲突时发生在同一个文件上的。2.生产上冲突的场景　　常见冲突的生产场景如下更新代码提交代码多个分支代码合并到一个分支时多个分支向同一个远端分支推送代码时　　git的合并中产生冲突的具体情况：　　<1>两个开发者...

2020-04-12 12:05:57 5304

原创 Git中 modified: .idea/workspace.xml 问题

2020-04-12 10:18:25 766

转载企业实战之spring项目《自定义异常》

前言在java项目里，异常的使用是比不可少，但是很多的开发者并不知道异常在项目中要怎么使用会更好一些，今天就给大家抛砖引玉下吧，说说项目中我是怎么使用的，也希望能引出你的更好的使用方法和想法。分析我们先来说说，目前很多项目都是怎么处理自定义异常的呢？因为项目采用的是基本都是MVC代码组织模式，所以很多的项目会按层次定义自己的异常，例如：DaoException、ServiceExcept...

2020-04-11 23:45:30 258

转载 Spark的Ml pipeline

博客原文：https://blog.csdn.net/rlnLo2pNEfx9c/article/details/78692986ML pipeline提供了一组统一的高级API，它们构建在 DataFrame之上，可帮助用户创建和调整实用的机器学习pipeline。一重要概念1.1管道中的主要概念MLlib对机器学习算法的API进行了标准化，使得将多种算法合并成一个pipel...

2020-04-11 15:52:45 314

转载使用hive做单词统计

2020-04-03 15:58:15 858

转载 spark广播变量

一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、...

2020-01-18 23:26:45 309

转载 Scala 深入浅出实战经典第46讲： ClassTag 、Manifest、ClasMainifest TagType实战

package com.parllay.scala.type_parameterizitor /*** Created by richard on 15-7-30.* 第46讲： ClassTag 、Manifest、ClasMainifest TagType实战*/object Manifest_Class { def main(args: Array[String]) ...

2020-01-18 23:18:20 173

转载如何使用Scala的ClassTag

Scala官方文档中对于ClassTag的定义如下：ClassTag[T]保存着在运行时被JVM擦除的类型T的信息。当我们在运行时想获得被实例化的Array的类型信息的时候，这个特性会比较有用。下面请看一个具体的场景：场景假定有一个Map[String, Any]，给定一个指定的key，我们需要检查Map中是否存在该key对应的value，如果存在，则优雅地返回这个值。看起来很...

2020-01-18 23:04:44 694 1

转载 SparkStream：foreachRDD详解

foreachRDD通常用来把SparkStream运行得到的结果保存到外部系统比如HDFS、Mysql、Redis等等。了解下面的知识可以帮助我们避免很多误区误区1：实例化外部连接对象的位置不正确，比如下面代码dstream.foreachRDD { rdd => val connection = createNewConnection() // executed a...

2020-01-18 22:48:23 961

转载 Spark三大核心数据结构（二）——累加器 & 自定义累加器的使用原理

Spark的三大核心数据结构：RDD、累加器（只写不读）、广播变量（只读不写）在spark应用程序中，我们经常会有这样的需求，如异常监控，调试，记录符合某特性的数据的数目，这种需求都需要用到计数器，如果一个变量不被声明为一个累加器，那么它将在被改变时不会再driver端进行全局汇总，即在分布式运行时每个task运行的只是原始变量的一个副本，并不能改变原始变量的值，但是当这个变量被声明为累加器后...

2020-01-18 21:48:03 733

原创杭州有赞技术团队的技术博客

这个链接是杭州有赞科技有限公司的技术博客，里面都是实际工作中能够用的到的一些技术指导，这些博客也能使得我们可以避免一些实际工作中的坑。https://tech.youzan.com/tag/big-data/...

2020-01-06 18:16:55 767

转载 Kafka高级API和低级API

Kafka高级API和低级APIKafka消费过程分析kafka提供了两套consumer API：高级Consumer API和低级API。1高级API1）高级API优点高级API写起来简单不需要去自行去管理offset，系统通过zookeeper自行管理不需要管理分区，副本等情况，系统自动管理消费者断线会自动根据上一次记录在zookeeper中的offset...

2019-12-24 12:48:07 551

原创 hive窗口函数必备宝典

https://blog.csdn.net/dingchangxiu11/article/details/83145151

2019-12-24 12:40:08 94

转载 Hive中not in函数的小坑：含null时的判断

Hive中的not in函数有一个隐藏的陷阱，当not in() 中的数值包含NULL，匹不上的数据会返回NULL而不是True。所以当在where中使用not in子查询进行筛选，一定要记得去除NULL值。样例代码：--not in的原始结果select num,num not in (null,'2'), num not in (null,'2') and true from(...

2019-12-24 12:33:29 1853

转载 hive中的lateral view 与 explode函数的使用

explode与lateral view在关系型数据库中本身是不该出现的，因为他的出现本身就是在操作不满足第一范式的数据（每个属性都不可再分），本身已经违背了数据库的设计原理（不论是业务系统还是数据仓库系统），不过大数据技术普及后，很多类似pv，uv的数据，在业务系统中是存贮在非关系型数据库中，用json存储的概率比较大，直接导入hive为基础的数仓系统中，就需要经过ETL过程解析这类数据，e...

2019-12-24 11:59:04 327

转载 hive中关于子查询的问题

在传统的关系型数据库中，是支持子查询操作的，但是在基于Hadoop的hive中却不支持这一操作，因此可以通过一些方法进行转换。实例，执行如下sql：select *from dw.ordersnap_total where d='2018-08-09' and session_id in ( select session_id ...

2019-12-24 11:54:25 1361 1

转载 Hive中笔记：三种去重方法，distinct,group by与ROW_Number()窗口函数

一、distinct,group by与ROW_Number()窗口函数使用方法1. Distinct用法：对select 后面所有字段去重，并不能只对一列去重。（1）当distinct应用到多个字段的时候，distinct必须放在开头，其应用的范围是其后面的所有字段，而不只是紧挨着它的一个字段，而且distinct只能放到所有字段的前面（2）distinct对NULL是不进行过滤的，...

2019-12-24 11:53:12 1066

转载 Hive去重以及group by与distinct性能的比较

在hive数据清洗这里总结三种常用的去重方式1.distinct2.group by3.row_number()eg：SELECT order_id, order_name, cate_type, modify_time，row_number() over(PARTITION BY order_id ORDER BY order_id DESC) num FROM order_...

2019-12-24 11:52:08 1224

转载 Sqooop- 使用Sqoop进行数据的导入导出

Sqoop是Apache旗下的一个开源框架，专门用来做数据的导入和导出。官网:https://sqoop.apache.org/Sqoop的安装非常简单，只需要把下载下来的tar包解压设置两个环境变量就可以了1.安装部署　　下载版本：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz　　官网：http://mirror.bit.edu.cn/a...

2019-12-23 14:35:16 416

转载互联网UV，PU，TopN统计

1.UV、PV、TopN概念1.1 UV（unique visitor）即独立访客数　　指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内，UV只记录第一次进入网站的具有独立IP的访问者，在同一天内再次访问该网站则不计数。UV提供了一定时间内不同观众数量的统计指标，而没有反应出网站的全面活动。1.2PV（page view）页面浏览量或点击量　　页面浏览量或点击量，...

2019-12-23 14:33:48 4325

转载大数据采集、清洗、处理：使用MapReduce进行离线数据分析完整案例

1 大数据处理的常用方法大数据处理目前比较流行的是两种方法，一种是离线处理，一种是在线处理，基本处理架构如下：在互联网应用中，不管是哪一种处理方式，其基本的数据来源都是日志数据，例如对于web应用来说，则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求，则可以采用在线处理的方式来对数据进行分析，如使用Spark、Storm等进行处理。比较贴切的一个例子...

2019-12-23 14:30:17 1148

转载 Spark集群三种部署模式的区别

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让Spark运行在一个通用的资源管理系统之上，这样可以与其他计算框架，比如MapReduce，公用一...

2019-12-23 11:06:14 646

转载 yarn cluster和yarn client模式区别——yarn-cluster适用于生产环境，结果存HDFS；而yarn-client适用于交互和调试，也就是希望快速地看到application

Yarn-cluster VS Yarn-client　　从广义上讲，yarn-cluster适用于生产环境；而yarn-client适用于交互和调试，也就是希望快速地看到application的输出。　　在我们介绍yarn-cluster和yarn-client的深层次的区别之前，我们先明白一个概念：Application Master。在YARN中，每个Application实例都有一...

2019-12-23 11:03:26 260

转载 MAPREDUCE的JOB提交流程

在hadoop1.0版本以前我们的Mapreduce是被当作资源调度和计算框架来使用的，成为了hadoop运行生态圈的瓶颈，所以在hadoop2.0版本以上引入了yarn的概念，使Mapreduce完全成为分布式计算框架，而Yarn成为了分布式资源调度。虽然mapreduce处理速度很慢，IO操作会很多，不过这是我们步入Spark的必经之路，也是了解大数据生态圈不可缺少的成分。下面就是针对jo...

2019-12-22 23:19:47 297

转载 Spark Streaming中withWatermark的简单尝试

我们在处理流数据的时候，往往会有实时性要求。可是如果我们直接按照程序所在服务器的当前时间计算又不行，比如当上游日志数据延迟了，则所有的这部分数据都会被抛弃掉。所以一般我们在记录日志的时候，加上日志的时间戳。这样我们在进行流处理的时候，就可以把日志记录的时间拿出来，根据这个时间来决定流处理是不是要往下进行。而往往我们会以最早到达的日志作为时间参考点，如果下一个日志比这个时间点晚的太多，就可以抛弃掉。...

2019-12-21 19:01:52 1056

转载 jstat命令查看jvm的GC情况（以Linux为例）

jstat命令查看jvm的GC情况（以Linux为例）jstat命令可以查看堆内存各部分的使用量，以及加载类的数量。命令的格式如下：jstat [-命令选项] [vmid] [间隔时间/毫秒] [查询次数]注意！！！：使用的jdk版本是jdk8. 类加载统计：　Loaded:加载class的数量 Bytes：所占用空间大小 Unloaded：未加...

2019-12-10 10:53:44 252

转载 mysql 第一范式、第二范式、第三范式理解以及实际工作的时候怎么利用这三范式

一般的数据库设计都需要满足三范式，这是最基本的要求的，最高达到6NF，但是一般情况下3NF达到了就可以一：1NF一范式的理解：1NF是关系型数据库中的最基本要求，就是要求记录的属性是原子性，不可分，就是属性不能分，这是关系型数据库的基本要求，不满足这个就不能叫关系型数据库了例如：讲师性别班级教室代课时间代课时间（开始，结束）韩忠康 Male php0331 102 30...

2019-12-05 15:25:07 1008

原创 shell脚本的条件判断格式之中括号[ ]

在shell脚本中，if语句和while语句中都会用到条件判断表达式，如：if [ -f a.txt ]; thenfi刚开始还以为这里的中括号就只是一种简单的语法格式，后来在另一篇博客中才看到，原来在shell脚本中，中括号[ ] 其实也是一种命令，通过在终端中输入： which [ 可以进行验证，其含义与test测试的含义是一样的。如下图：既然是命令，那么这一对中括...

2019-10-09 17:21:29 632

转载 linux kill 命令以及 USR1 信号解释

2019-10-09 17:12:39 445

原创启动linux 集群中大数据组件的流程：zookeeper、hadoop、yarn 、hive、hbase

1 同步时间：ntpdate time1.aliyun.com（前提是在安装linux的时候，要配置time1.aliyun.com）2 启动zookeeper：启动QuorumPeerMain 进程（1）查看zk的状态：./ssh_all_zookeeper.sh /usr/local/zookeeper/bin/zkServer.sh start（2）停止zk:./ssh_all...

2019-09-25 22:15:35 356

原创 idea运行map Reduce 时报：错误: 找不到或无法加载主类 com.hnxy.bin.JobRunner

问题描述：使用idea编辑器，使用maven构建hadoop的mapreduce项目，在运行的时候提示报错：错误: 找不到或无法加载主类 com.hnxy.bin.JobRunner错误排查：1 可能是java的环境变量错误解决方案：查看java的环境变量是否正确2 可能是未能成功编译：解决方案：菜单---》Build---》Rebuild Prodject...

2019-09-25 21:44:50 786

转载 hbase 单个regionserver中region过多优化

2019-09-22 19:29:09 986 1

转载 Hbase写入量大导致region过大无法split问题

最近在线上往hbase导数据，因为hbase写入能力比较强，没有太在意写的问题。让业务方进行历史数据的导入操作，中间发现一个问题，写入速度太快，并且业务数据集中到其中一个region，这个region无法split掉，处于不可用状态。这里描述一整个过程—— 事情的起因：业务方按照userid和商品id作为rowkey前缀，并没有进行hash散列。我当时咨询过业务方，认为：1.业务...

2019-09-22 19:27:31 1101 1

转载 HBase高性能随机查询之道 – HFile原理解析

2019-09-22 16:48:25 323

空空如也

空空如也