自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 idea(pycharm)连接hive问题汇总

idea 连接hive各种报错解决。

2022-07-22 15:29:54 1889 3

原创 spark写入hudi表报错:NoSuchMethodError: org.apache.http.client.utils.URLEncodedUtils.encPath

NoSuchMethodError: org.apache.http.client.utils.URLEncodedUtils.encPath

2022-06-29 09:02:04 705

原创 HDFS node01:50070端口无法访问解决

50070端口无法访问问题

2022-06-22 22:32:27 3198

原创 flink学习笔记【12】Table api和sql——表的概念、环境、创建、查询

文章目录一、table api1.1 快速上手1.2 表处理 程序架构1.3 表环境1.4 建表1.5 表的查询&输出一、table api基于table的数据类型进行数据转换底层api——> ds核心api——>table api——>sql1.1 快速上手pojo类package com.shinho.chapter11_sql;import java.sql.Timestamp;public class Events { public String

2022-05-05 22:25:00 559

原创 【celery】【2】多任务celery调度&定时任务执行

文章目录1. 多任务2. 定时任务2.1 固定时间2.2 相对时间1. 多任务celery.pyfrom celery import Celerycel = Celery('celery_demos', broker='redis://127.0.0.1:6379/1' ,backend='redis://127.0.0.1:6379/2' ,include=['celery_tasks.task01','celery

2022-04-21 23:14:13 725

原创 【Celery】【1】celery学习笔记-异步执行原理

文章目录1. 定义2. 应用场景3. 异步任务实现1. 定义celery 3部分组成:消息中间件(broker)生产者消费者模型django生产者执行业务,订单来了,数据放到消息队列(rq),消费者监听队列,回调函数完成发送短息一分钟有100个请求,100个请求入消息队列,回调任务完成100次,大量IO操作,一个2s,完成后再取第二个,重复这个步骤会耽误大量IO时间,第200个人需要200s才能有短信通知。rabbitmq+redis执行任务单元(worker)任务执行的单元,w

2022-04-20 23:56:57 490

原创 【flink学习笔记】【11】算子状态

文章目录1 分类2.应用场景3. 广播状态不考虑key,只针对当前算子并行任务有效,不需要考虑key的隔离。不同的key只要被分发到同一个并行子任务,就会访问同一个operator state。1 分类列表状态 listState每个并行子任务只会保留一个列表,也就是当前并行子任务上所有状态项的集合,状态项是可以重新分配的最细粒度,彼此完全独立。如果并行度调整了,列表状态中的元素项被统一收集起来,相当于多个分区的列表合成大列表,再均匀分配所有并行任务联合列表状态 UnionListState

2022-04-19 23:19:16 1958

原创 【flink学习笔记】【10】按键分区状态

3. 值状态4.列表状态5.映射状态6.聚合状态7.状态生存时间TTL

2022-04-18 22:04:56 1804

原创 【flink学习笔记】【9】状态编程-定义

文章目录1.状态定义1.1 有状态算子1.2 状态管理1.3状态分类2. 算子状态&按键分区状态2.1 算子状态2.2 按键分区状态(最常见)2.2.3 结构类型分布式集群,分布式状态如何处理。1.状态定义每个任务进行中,可以只依赖当前的数据;但也可以依赖已经到来的数据(聚合操作),需要将已经到来的数据保存下来。这些用来计算输出结果的所有数据,或者由它们计算出的某个结果,叫做这个任务的状态。例如先下单,后支付事件模式。1.1 有状态算子无状态算子:比如map,flatmap,filter只

2022-04-13 23:23:00 1510

原创 【flink学习笔记】【8】多流转换-分流、合流、连接流

合流、分流、连接流

2022-04-10 23:28:44 1032

原创 【flink学习笔记】【6】Sink 输出算子

sink多种链接

2022-03-30 07:54:41 2679

原创 【flink学习笔记】【5】转换算子Transform

transform+物理分区

2022-03-28 23:07:04 2420

原创 【hadoop学习笔记】【3】Hive调优

文章目录1.fetch抓取2. 本地查询3.mapjoin4.group by5.COUNT(DISTINCT)6.尽量避免笛卡尔积7.动态分区8.并行执行1.fetch抓取某些情况查询不必使用mapreduce# 执行mrset hive.fectch.task.conversion=none;# 不执行mrset hive.fectch.task.conversion=more;2. 本地查询小数据集不惜要启动集群,在单台机器上处理任务:set hive.exex.mode.loca

2022-03-26 23:58:07 346

原创 【flink学习笔记】系统架构

文章目录1.作业管理器 jobmanagerjobmasterresoucemanagerdispatcher(不必要)2.task manager3.作业提交流程4.算子链5. 并行度6.执行图7.任务&任务槽8.思考8.1 flink程序如何得到job8.2 流处理程序包含多少job8.3 执行job需要多少slot9.任务调度1.作业管理器 jobmanagerjobmaster1.作业提交时,接收要执行的应用:jar包、数据流图、作业图2. jobmaster把作业图转换成为物理层面

2022-03-26 23:57:09 307

原创 【flink学习笔记】【4】Datastream API-源算子

执行环境source的五种方式kafka环境搭建flink支持数据类型

2022-03-26 23:53:27 527

原创 【flink学习笔记】【3】集群模式-环境部署

文章目录一、环境配置二、安装flink三、向集群提交作业报错处理finishConnect(..) failed: No route to host四、终端提交任务五、部署模式5.1 独立模式standalone5.2 yarn模式一、环境配置centos7.5java8hadoopssh、关闭防火墙node00、node01、node02二、安装flinkhttps://www.apache.org/dyn/closer.lua/flink/flink-1.13.6/flink-1.1

2022-03-22 23:26:43 2910

原创 【flink学习笔记】【2】本地模式-流处理wordcount

文章目录一、有界流wordcount一、无界流wordcount一、有界流wordcountpackage com.shinho.wc;import org.apache.flink.api.common.typeinfo.Types;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.da

2022-03-22 20:57:26 2714

原创 【flink学习笔记】【1】flink概念&批处理wordcount

flink概念、windows环境搭建

2022-03-21 23:13:42 964

原创 【hadoop学习笔记】【2】hive的自定义函数

文章目录maven坐标2.自定义函数3.导出jar包4.上传到服务器hive/lib下并且重命名5.使用函数maven坐标<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht

2022-03-20 23:40:59 481

原创 【hadoop学习笔记】【1】hive内部、外部表操作

hive内部表、外部表操作、分区表创建、查询操作

2022-03-20 21:13:32 1101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除