自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 资源 (4)
  • 论坛 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 Windows Hbase Docker实践

因为生产和测试集群要连内网有诸多不便,所以本地docker测试成为不二之选步骤1.生成docker container并运行docker run -d -p 2181:2181 -p 8080:8080 -p 8085:8085 -p 9090:9090 -p 9095:9095 -p 16000:16000 -p 16010:16010 -p 16201:16201 -p 16301:16301 -p 16030:16030 -p 16020:16020 --name hbase001 .

2021-10-15 10:03:54 9

原创 KAFKA压测实录

1.压测方案1.1 压测目的1.2 测试范围及方法1.2.1 测试范围概述1.2.2测试方法2. 生产环境压测2.1 生产环境集群配置2.2 生产环境producer压测脚本2.2.1创建TOPIC2.2.1.1创建3分区3副本TOPIC prd_pressure_test_3_3partition2.2.1.2创建4分区3副本TOPIC prd_pressure_test_4_3partition2.2.1.3创建6分区3副本TOPIC p...

2021-10-14 17:21:07 11

翻译 Apache Flink 1.14.0 发布公告

2021 年 9 月 29 日 Stephan Ewen (@StephanEwen) 和 Johannes Moser (@joemoeAT)Apache 软件基金会最近发布了年度报告,Apache Flink 再次跻身最活跃项目前 5 名!这一非凡的活动也体现在新的 1.14.0 版本中。200 多名贡献者再次致力于解决 1,000 多个问题。我们为这个社区如何持续推进项目而感到自豪。此版本在 SQL API、更多连接器支持、检查点和 PyFlink 等领域带来了许多新功能和改进。此...

2021-10-01 13:06:08 44

原创 SinkClickHouseDemo2

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/ma.

2021-09-04 15:10:58 23

原创 FlinkClickHouseSink范例

package com.xxx.job;import com.alibaba.fastjson.JSONObject;import com.xxx.pojor.VisitorStats;import com.xxx.sink.ReportClickHouseSink;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.kafka.shaded.org.apache.kafka.c...

2021-08-30 09:35:19 15

原创 实时流平台规划范本

自己做的策划,后期需要调研,压力还是比较大的,因为要做最好的中台的意图:让业务更好的进行创新、试错,同时大大降低新业务研发成本。而对应于实时流计算本身就需要兼顾在Job运行的过程中,稳定,高效,准确的基础上。平台侧更要有集成,易用,高开发效率,易维护等特征。这远非批处理T+1日调度那么简单,需要有严格的规划,研发,侧试,面对更多的挑战。针对企业的痛点,我们秉承发现问题,解决问题的服务态度提供**智能中台解决方案未来目标1提供上百种connector覆盖全行业connector.

2021-05-28 14:09:23 40 1

原创 Zepplin解读

Zeppelin简介Apache Zeppelin是基于Web的笔记本notebook,支持Spark,Python,SQL,Scala等数据驱动的交互式数据分析和协作文档。Zeppelin Notebook可以满足数据摄取、数据发现、数据分析、数据可视化与协作。可视化支持的开发语言与技术支持Spark、PySpark、Spark R、Spark SQL(包含加载这些模块的依赖)允许无缝连接任何JDBC数据源,Postgrepsql、Mysql、MariaDB、Redshift、Ap

2021-05-27 23:39:41 2324 7

原创 FlinkCDC解读

FlinkCDC因为一直没有一个详尽的解读我就自己做一篇·https://github.com/apache/flink·官网·https://github.com/ververica/flink-cdc-connectors·官方论坛·Flink SQL CDC 实践以及一致性分析·2021-03-10·https://mp.weixin.qq.com/s/tE70jJO6pZTe6oB0fKcZkQ··Flink 如何实时分析 Iceberg 数据湖的 CDC 数据·2021

2021-05-27 14:49:01 695

原创 Flink平台主界面

2021-05-20 14:56:38 72

原创 FlinkSQL生产实录_02

CREATE FUNCTION GetInfoRowKey AS 'udf.GetInfoRowKey';CREATE TABLE hdp_ubu_zhuanzhuan_logserver_etl (topic STRING,`timestamp` BIGINT,`action` STRING,`cmd` string,datapool MAP<string,string>,cate_first_id string,cate_second_id string,...

2021-05-20 14:46:05 79

原创 FlinkSQL生产实录_01

流量机型维统计分析set table.exec.emit.early-fire.enabled=true;set table.exec.emit.early-fire.delay=6000ms;CREATE TABLE hdp_ubu_zhuanzhuan_olap_warehouse_dw_sensorlog ( sc_user_id string ,distinct_id string ,event str...

2021-05-20 14:45:18 106

原创 Flink汇总 不断更新

博主为了构建统一的flink学习笔记https://ci.apache.org/projects/flink/flink-docs-release-1.13https://ci.apache.org/projects/flink/flink-docs-release-1.12Flink 算子之间可以通过一对一(直传)模式或重新分发模式传输数据:一对一模式(例如上图中的 Source 和 map() 算子之间)可以保留元素的分区和顺序信息。这意味着 map() 算子的 subta.

2021-05-17 10:30:34 55 1

原创 Elasticsearch详细架构图

ES,基本功了

2021-05-15 10:27:31 333

原创 Yarn详细运行流程图

基本功图

2021-05-15 10:25:52 41

原创 MapReduce详细运行流程

MR比较基础,聊胜于无

2021-05-15 10:22:53 16

原创 Zookeeper详细架构图

Zookeeper详细架构图,针对网上很多不详细

2021-05-15 10:19:45 60

原创 Redis详细架构图

Redis详细架构图,针对网上很多不够详细

2021-05-15 10:17:25 76

原创 HDFS详细架构

HDFS详细架构,针对网上很多不够详细

2021-05-15 10:13:21 9

原创 Hbase详细架构

针对网上很多不够详细的Hbase架构图

2021-05-15 10:08:38 10

原创 003

5. Flink的重启策略当 Task 发生故障时,Flink 需要重启出错的 Task 以及其他受到影响的 Task ,以使得作业恢复到正常执行状态。Flink 通过重启策略和故障恢复策略来控制 Task 重启:重启策略决定是否可以重启以及重启的间隔;故障恢复策略决定哪些 Task 需要重启。Flink 作业如果没有定义重启策略,则会遵循集群启动时加载的默认重启策略。 如果提交作业时设置了重启策略,该策略将覆盖掉集群的默认策略。5.1 概览默认的重启策略是通过Flink的flink-conf.

2021-04-24 19:14:40 32

原创 002

6.2 基于文件的sink通过writeAsText将数据写出。支持本地文件和HDFS示例:基于下列数据,写入到本地和HDFS文件中(19,"zhangsan",178.8),(17,"lisi",168.8),(18,"wangwu",184.8),(21,"zhaoliu",164.8)参考代码package cn.itcast.flink.stream.sink;import org.apache.flink.api.common.serializati...

2021-04-24 19:13:55 30

原创 001

第一章 Flink基础课程目标了解什么是流式计算了解Flink的简介掌握Flink环境的搭建掌握Flink的架构体系掌握Flink的运行架构1. [了解] -流式计算简介1.1 数据的时效性日常工作中,我们一般会先把数据存储在表,然后对表的数据进行加工、分析。既然先存储在表中,那就会涉及到时效性概念。如果我们处理以年,月为单位级别的数据处理,进行统计分析,个性化推荐,那么数据的的最新日期离当前有几个甚至上月都没有问题。但是如果我们处理的是以天为级别,或者一小时甚至更小粒度的.

2021-04-24 19:11:55 57

原创 真实大数据简历模版

基本信息: 姓 名:XXX性 别:X 目前所在地:XXXXXX电话:XXXXXXXX邮箱:XXXXXXXX@163.com 英语:六级 学历:2008.09 – 2010.12 中国科学技术大学 软件工程 硕士 专业技能: 1. 熟悉 Java、Scala、Python 编程语言; 2. 熟悉大数据开发框架,熟悉运用 Hive、Spark、Flink、Hbase、Impala、Kylin、Flume、ClickHouse等大数据主流工具和技术; 3. 熟悉Ka

2021-04-13 09:55:18 648

原创 Flink真实面试经验

群里小伙伴的面试经验富德保险电话1面 30分钟:1-自我介绍2-介绍一下你最熟悉的项目?3-你用Flink消费Kafka里面的数据做了什么处理?4-Hive数仓的分层每层都做了一些什么操作?5-对于报表展示这一块你对 Js Echarts 了解吗?6-有这样一个场景: 你同时要用到流试过来的数据 和 数仓中的历史数据你知道怎么做的吗? 或者可不可以做到?7-你对Spark了解吗? 说一下SparkStreaming 和 Flink的区别?8-经过流试程序ETL的数据落地到了 MySQL

2021-04-03 14:40:25 216

原创 Flink知识要点

Flink - End-to-End Exactly-Once语义1. 什么是状态一致性Flink跟其他的流计算引擎相比,最突出或者做的最好的就是状态的管理,根据对状态的学习,我们知道flink是有状态的流处理,内部每个算子任务都可以有自己的状态对于流处理器内部来说,所谓的状态一致性,其实就是我们所说的计算结果要保证准确。一条数据不应该丢失,也不应该重复计算在遇到故障时可以恢复状态,恢复以后的重新计算,结果应该也是完全正确的。2. 状态一致性分类AT-MOST-ONCE(最多一次)当任

2021-04-03 10:20:28 59

翻译 Flink Kafka整合

Apache Kafka 连接器Flink 提供了Apache Kafka连接器,用于从 Kafka topic 中读取或者向其中写入数据,可提供精确一次的处理语义。依赖 Kafka Consumer DeserializationSchema 配置 Kafka Consumer 开始消费的位置 Kafka Consumer 和容错 Kafka Consumer Topic 和分区发现 Kafka Consumer 提交 Offset 的行为配置 Kafka Consum..

2021-04-02 08:43:07 84

翻译 FlinkYARN调度

Apache Hadoop YARN入门 介绍 准备 在YARN上启动Flink会话 YARN上Flink支持的部署模式 应用模式 每作业群集模式 会话模式 在YARN参考上的Flink 在YARN上配置Flink 资源分配行为 YARN的高可用性 支持的Hadoop版本。 在防火墙后面的YARN上运行Flink 用户罐子和类路径 入门本入门部分将指导您在YARN上设置功能齐全的Flink群集。介绍Apache Hadoop YAR

2021-04-02 08:39:34 71

原创 Flink DataStream算子汇总

依据1.12官网进行归纳汇总,方便学习 Transformation数据流转换 Description Map 1->1 FlatMap 1->n Filter 为每个元素评估一个布尔函数,并保留该函数返回true的布尔函数。过滤出零值的过滤器 KeyBy 从逻辑上将流划分为不相交的分区。具...

2021-04-02 08:29:27 52

原创 Zookeeper_Flume_Kafka面试题

Zookeeper相关总结1.3.1 选举机制 半数机制:2n+1; 10台服务器:3台; 20台服务器:5台; 100台服务器:11台台数并不是越多越好。 太多选举时间过长影响性能。1.3.2 常用命令 ls、get、create1.4 Flume相关总结1.4.1 Flume组成,Put事务,Take事务 Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。 F...

2021-04-01 09:39:52 73

原创 Flink CEP

Flink-CEP说明:按修改时间先后倒序排列,最新修改的排在第一行。 版本栏中填入版本编号或者更改记录编号。 状态分为三种状态:A——增加;M——修改;D——删除。 在简要说明栏中填写变更的内容和变更的范围。 表中所有日期格式为:YYYYMMDD。目 录第1章 Flink-CEP简介 1.1 前言 1.2 什么是Flink-CEP 1.3 Flink-CEP使用场景 1.4 Flink-CEP基本概念 第2章 Flink CEP原理 2.1...

2021-04-01 09:27:30 50

原创 flink提交任务参数

网上参数众说纷纭不切实际提交yarn任务参数设置: 参数 建议值 描述 -n (taskmanager) 节点数*(4-8) 1.10已废弃 该参数为Flink的taskmanager数目,Flink引擎运行需要由一个jobmanager以及若干个taskmanager构成。每个taskmanager都是独立的一部分,当有Flink应用需要运行时,会被随机分配到一个taskmana

2021-04-01 09:20:38 1088

原创 Hive常用函数大全

Hive常用函数大全1、关系运算1、等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE2、不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为TRUE;否则为FALSE3、小于比较: <语法: A < B操作类型:所有基本类型描述: 如果表达式A为NULL,或者表达式B

2021-04-01 09:16:30 62

原创 大数据外企面试英文自我介绍

Thank you for giving me this opportunity for this (phone) interview.My Chinese name is XXX and you can call me XXX which is my English name . I’m from XXX ,a city in XXX province. But I want to stay in XXX to find a suitable job for myself....

2021-04-01 09:09:15 247

原创 kafka概念图

网上太多图概念很模糊不够清晰气愤之余自画以拨乱反正

2021-03-31 16:44:44 42

原创 Flink概念图

因为网上大部分图都很渣所以自己整理了几张原创图,划清清浊

2021-03-31 16:35:56 93

翻译 flink各版本变化和新增特性

1.6新特性Flink 1.6-有状态流处理的下一步在Flink 1.6.0中,我们继续在较早版本中进行的基础工作:使Flink用户能够无缝地运行快速数据处理并毫不费力地构建数据驱动的数据密集型应用程序。Flink的状态支持是使Flink在实现各种用例时如此通用和强大的关键功能之一。为了使其更容易,社区增加了对状态TTL的本地支持(FLINK-9510,FLINK-9938)。此功能允许在状态过期后对其进行清理。现在,通过Flink 1.6.0,计时器状态可以通过将相关状态存储在RocksDB中

2021-03-17 09:33:45 2009

原创 数据分析大数据面试题大杂烩02

Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序 . partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡,以后的Reducer就会根据partition来读取自己对应的数据 . 接着运行co

2021-03-09 16:30:44 902

原创 数据分析大数据面试题大杂烩01

互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单 订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据 通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做离线原理胜过代码List 与set 的区别?List特点:元素有放入顺序,元素可重复 ,

2021-03-09 16:29:02 677

原创 算法02

析过去 把握现在 预测未来在茫茫的数据大海海底下有一望无际的信息沙漠,金灿灿的有价值的信息深埋其中等待人们去发现和挖掘对数据敏感就是对有价值信息的敏感 培养数据敏感性的过程就是树立真正的审美观元数据(Metadata checkpointing)管理数据的数据getOrCreate 有就获取激活状态的option没有就创建机器学习在大数据项目中的位置 位于数据分析和BI报表之间层大数据时代改变的是思维方式数据重要性:数据资源--------->数据资产(数据的增值...

2021-03-09 15:49:33 194 1

原创 算法01

SparkMllib分类算法比较及应用场景详解Binary ClassificationNaive BayesLinear RegressionLogistical RegressionRandom Forrest ClassifierProbabilistic ClassifierGBT ClassifierSVM with SGDDecision Tree ClassifierMulti Layer Perceptron Classifier二元分类朴素贝叶斯线性回归后勤.

2021-03-09 15:46:32 170

flink-connector-redis_2.11-1.1-SNAPSHOT.jar

编译好了,安全可用

2021-09-14

线性代数的几何意义.doc

数学

2021-03-22

人工智能机器学习必备数学知识0604 .doc

AI

2021-03-22

启动集群相关命令.txt

大数据集群简易脚本

2021-03-22

java效率真的低

发表于 2016-11-30 最后回复 2016-11-30

不知道哪里错了

发表于 2016-10-09 最后回复 2016-10-10

不知道这个java项目为啥出错

发表于 2016-10-09 最后回复 2016-10-09

不知道怎么写了

发表于 2016-10-09 最后回复 2016-10-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除