- 博客(20)
- 收藏
- 关注
原创 spark写入hudi表报错:NoSuchMethodError: org.apache.http.client.utils.URLEncodedUtils.encPath
NoSuchMethodError: org.apache.http.client.utils.URLEncodedUtils.encPath
2022-06-29 09:02:04 705
原创 flink学习笔记【12】Table api和sql——表的概念、环境、创建、查询
文章目录一、table api1.1 快速上手1.2 表处理 程序架构1.3 表环境1.4 建表1.5 表的查询&输出一、table api基于table的数据类型进行数据转换底层api——> ds核心api——>table api——>sql1.1 快速上手pojo类package com.shinho.chapter11_sql;import java.sql.Timestamp;public class Events { public String
2022-05-05 22:25:00 559
原创 【celery】【2】多任务celery调度&定时任务执行
文章目录1. 多任务2. 定时任务2.1 固定时间2.2 相对时间1. 多任务celery.pyfrom celery import Celerycel = Celery('celery_demos', broker='redis://127.0.0.1:6379/1' ,backend='redis://127.0.0.1:6379/2' ,include=['celery_tasks.task01','celery
2022-04-21 23:14:13 725
原创 【Celery】【1】celery学习笔记-异步执行原理
文章目录1. 定义2. 应用场景3. 异步任务实现1. 定义celery 3部分组成:消息中间件(broker)生产者消费者模型django生产者执行业务,订单来了,数据放到消息队列(rq),消费者监听队列,回调函数完成发送短息一分钟有100个请求,100个请求入消息队列,回调任务完成100次,大量IO操作,一个2s,完成后再取第二个,重复这个步骤会耽误大量IO时间,第200个人需要200s才能有短信通知。rabbitmq+redis执行任务单元(worker)任务执行的单元,w
2022-04-20 23:56:57 490
原创 【flink学习笔记】【11】算子状态
文章目录1 分类2.应用场景3. 广播状态不考虑key,只针对当前算子并行任务有效,不需要考虑key的隔离。不同的key只要被分发到同一个并行子任务,就会访问同一个operator state。1 分类列表状态 listState每个并行子任务只会保留一个列表,也就是当前并行子任务上所有状态项的集合,状态项是可以重新分配的最细粒度,彼此完全独立。如果并行度调整了,列表状态中的元素项被统一收集起来,相当于多个分区的列表合成大列表,再均匀分配所有并行任务联合列表状态 UnionListState
2022-04-19 23:19:16 1958
原创 【flink学习笔记】【9】状态编程-定义
文章目录1.状态定义1.1 有状态算子1.2 状态管理1.3状态分类2. 算子状态&按键分区状态2.1 算子状态2.2 按键分区状态(最常见)2.2.3 结构类型分布式集群,分布式状态如何处理。1.状态定义每个任务进行中,可以只依赖当前的数据;但也可以依赖已经到来的数据(聚合操作),需要将已经到来的数据保存下来。这些用来计算输出结果的所有数据,或者由它们计算出的某个结果,叫做这个任务的状态。例如先下单,后支付事件模式。1.1 有状态算子无状态算子:比如map,flatmap,filter只
2022-04-13 23:23:00 1510
原创 【hadoop学习笔记】【3】Hive调优
文章目录1.fetch抓取2. 本地查询3.mapjoin4.group by5.COUNT(DISTINCT)6.尽量避免笛卡尔积7.动态分区8.并行执行1.fetch抓取某些情况查询不必使用mapreduce# 执行mrset hive.fectch.task.conversion=none;# 不执行mrset hive.fectch.task.conversion=more;2. 本地查询小数据集不惜要启动集群,在单台机器上处理任务:set hive.exex.mode.loca
2022-03-26 23:58:07 346
原创 【flink学习笔记】系统架构
文章目录1.作业管理器 jobmanagerjobmasterresoucemanagerdispatcher(不必要)2.task manager3.作业提交流程4.算子链5. 并行度6.执行图7.任务&任务槽8.思考8.1 flink程序如何得到job8.2 流处理程序包含多少job8.3 执行job需要多少slot9.任务调度1.作业管理器 jobmanagerjobmaster1.作业提交时,接收要执行的应用:jar包、数据流图、作业图2. jobmaster把作业图转换成为物理层面
2022-03-26 23:57:09 307
原创 【flink学习笔记】【3】集群模式-环境部署
文章目录一、环境配置二、安装flink三、向集群提交作业报错处理finishConnect(..) failed: No route to host四、终端提交任务五、部署模式5.1 独立模式standalone5.2 yarn模式一、环境配置centos7.5java8hadoopssh、关闭防火墙node00、node01、node02二、安装flinkhttps://www.apache.org/dyn/closer.lua/flink/flink-1.13.6/flink-1.1
2022-03-22 23:26:43 2910
原创 【flink学习笔记】【2】本地模式-流处理wordcount
文章目录一、有界流wordcount一、无界流wordcount一、有界流wordcountpackage com.shinho.wc;import org.apache.flink.api.common.typeinfo.Types;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.da
2022-03-22 20:57:26 2714
原创 【hadoop学习笔记】【2】hive的自定义函数
文章目录maven坐标2.自定义函数3.导出jar包4.上传到服务器hive/lib下并且重命名5.使用函数maven坐标<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht
2022-03-20 23:40:59 481
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人