自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(86)
  • 收藏
  • 关注

原创 base64编码

文章目录1. base 64是什么?2. base 64能干什么?3. base 64 编码原理4. 为什么叫base64编码呢?1. base 64是什么?是一种编码格式 ,使用64个可打印的字符表示二进制数据,提高程序的 可读性。2. base 64能干什么?URL 特殊字符,转码 转义嵌入图片 src=‘base64编码后的内容’3. base 64 编码原理怎么将中文字符变成base64编码1.查找自己本机的中文编码格式 GB23122.查找GB2312 编码字符集,

2022-04-01 20:26:36 477

转载 awk基础入门

文章目录1.awk基本概念1.1 什么是awk1.2 awk工作流程是这样的1.3 .awk命令形式2.awk语法2.1 awk 内置变量和基本操作符3.awk基本概念以及简单使用3.1 简单应用其他应用: https://junmajinlong.com/shell/awk/awk_examples/1.awk基本概念1.1 什么是awkawk是对文本进行分析的一种语言。它是对文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。1.2 awk工作流程是这样的读入有’

2022-03-27 22:51:48 409

原创 记一次线上bug修复的至旅

记一次bug修复的旅途1.问题描述1.1 做了什么事呢?基础流拼接用户播放稿件的特征。1.2 拼接后怎么验证的呢?kafka 消费kafka 验证指定的字段有没有值-> /mnt/storage00/luxiaowei/kafka_2.12-2.8.0/bin/kafka-console-consumer.sh --bootstrap-server jssz-kafka-sycpb-pa-01.host.bilibili.co:9092,jssz-kafka-sycpb-pa-

2022-03-05 17:30:39 1865

原创 计算机网络--04 传输层

文章目录1. 传输层的两个协议2. UDP 报文格式3. TCP3.1 TCP 数据格式3.2 格式详解3.3 TCP的特点3.4 可靠传输3.5 流量控制3.6 拥塞控制3.5 拥塞控制的几个问题?1. 传输层的两个协议TCP(Transmission Control Protocol)传输控制协议UDP (User - -Datagram Protocol )用户数据报协议2. UDP 报文格式UDP是无连接的,减少了建立和释放连接的开销UDP尽最大能力交付,不保证可靠交付 因此不需

2022-02-27 18:14:12 2384

原创 计算机网络--03 网络分(物理层 数据链路层 网络层)

1. 为什么要有网络分层为了网络数据更好的传输和工作2. 有哪些网络分层模型3. 客户端请求向服务器请求数据的过程4. 分层对应的协议

2022-02-20 23:37:45 1159

原创 操作系统--内存管理

文章目录1.内存分段管理1. 1.内存分段管理逻辑图1. 2. 为什么要分段管理?1. 3. 为什么需要LTD?1. 4. 分段管理有什么缺点?1. 5.内存是怎样按照段分割呢?2.内存分页管理2.1. 为什么要有内存分页管理2.2 是怎样解决这个问题的呢?2.3 有什么问题呢?2.4 为了解决页表占有空间大的问题2.5 多级页表有什么问题呢?3 .内存段页管理3.1 段页是怎样完成地址翻译的3.2 段页式内存下的程序是如何载入内存的?3.3 源码分析1.内存分段管理1. 1.内存分段管理逻辑图

2022-02-14 22:44:11 538

原创 操作系统--进程和线程

线程和进程1. 进程1.1 什么是进程运行中的程序1.2为什么要有进程呢?为了任务能够交替执行。所以才有了进程的概念。进程是怎样让任务交替执行的?一个程序的用完一个时间片 进程会把程序的执行现场环境(各个cpu寄存器的值 以及PC)保存在进程的PCB中 。下次就可以接着上次的地方继续执行 所以任务就可以交替执行。进程是什么 执行序列和资源+现场环境1.3 进程是怎样被交替执行1.4 进程的构成1.5 进程之间之怎样被切换的 启动磁盘读写

2022-02-06 16:40:09 664

原创 计算机网络--02 Mac地址和IP

文章目录1.为什么要有Mac地址2.Mac地址的表示于查询2.1Mac地址的表示2.1Mac地址查询3.Mac地址的获取4.什么是ARP和RARP5.IP地址5.1 IP地址5.2 组成5.23分类6.IP划分6.1为什么要划分ip地址6.2 怎么划分ip地址呢?1.为什么要有Mac地址Mac (Media Access Control Address )地址是网卡的唯一标识,网络通信的时通过识别网卡的Mac地址来确认哪个网卡接受消息。Mac地址全球唯一。2.Mac地址的表示于查询2.1Ma

2022-01-09 18:11:34 2169

原创 计算机网络--01 基础知识

1.为什么要学计算机网络如果你想了解 数据是怎样从一个设备传输到另一个设备上。那么就必须要学计算机网络2.数据是怎样从一台设备传输到另一台设备上的总结:这一切都是由网络协议来规定的。没有网络协议,就没有今天的互联网3.什么是协议?为什么要有协议?生活中的协议: 如租房协议的作用是在租房上约定双方能干什么 不能干什么。如果国际上有了统一的租房协议 那么每次我拿到租房协议,我就不用阅读,知道每个空是什么意思,需要填写什么。网络中的协议:和生活中的协议如出一辙,也是约束双方 能干什么不能干什

2022-01-01 20:25:30 1191

原创 Flink 用户电商行为分析项目

Flink 用户电商行为分析文章目录Flink 用户电商行为分析1. 实时统计分析1. 1 热门商品统计1. 2 热门页面统计1. 3 网站uv统计2. 业务流程以及风险控制2. 1 页面广告黑名单过滤2. 2 恶意登陆监控2. 3 订单支付失效监控2. 4 支付实时对账3. 项目地址1. 实时统计分析1. 1 热门商品统计需求描述:每隔5分钟 实时展示1小时内的该网站的热门商品的TopN展示的数据形式:时间窗口信息:NO 1:商品ID+浏览次数1NO 2:商品ID+浏览次数2N

2022-01-01 12:51:16 1207

原创 Flink CEP

1.为什么要有Flink CEP如果要处理流与流之间的关系,使用DataStream API 去难去定义流之间的匹配规则,但通过Flink CEP就很方便的定义的规则,过滤匹配符合规则的流。2.什么是Flink CEP定义的一套规则(Patterns),满足规则的流将被输出。类似于正则表达式。3.Flink CEP 使用步骤定义规则(Pattern)模式应用输出流上检测出匹配序列的结果DataStream<Event> input =........// 1.

2021-12-26 16:31:08 763

原创 Flink 窗口触发器

窗口触发器1. 为什么要有触发器决定何时触发窗口后续的逻辑执行。每个窗口都有一个默认的触发器,时间窗口默认watermark超过EndTime就触发计算窗口类型触发器触发时机EventTime(Tumblng/Sliding/Session)EventTimeTrigger一旦Watermark没过窗口的EndTime,该窗口触发ProcessingTime(Tumblng/Sliding/Session)ProcessingTimeTrigger一旦系统时间没

2021-12-23 15:02:13 1596

转载 Flink SQL 入门和实战

文章目录一.Flink SQL 背景二、Flink SQL Hello_world三、Flink SQL 的语法和算子3.1 Flink SQL 的语法3.1 常用算子3.1.1 滚动窗口语法3.1.2滑动窗口3.1.3 Session Window一.Flink SQL 背景Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算

2021-12-16 19:26:46 775

转载 stringBuilder类与string类的区别

StringBuilder类与string类的区别 string本身是不可改变的,它只能赋值一次,每一次内容发生改变,都会生成一个新的对象,然后原有的对象引用新的对象,而每一次生成新对象都会对系统性能产生影响,这会降低.NET编译器的工作效率。string操作示意图如图1所示。                   &nbs..

2021-12-14 18:03:07 795

原创 Flink中的状态

1.什么是Flink中的状态可以认为状态就是当前任务的一个本地变量,可以被任务的业务逻辑访问。2.算子状态2.1 什么是算子状态算子状态的作用范围限定为算子任务。这意味着由同一并行任务所处理的所有数据都可以访问到相同的状态,状态对于同一任务而言是共享的。算子状态不能由相同或不同算子的另一个任务访问3.键控状态2.1 什么是监控状态键控状态是根据输入数据流中定义的键(key)来维护和访问的。Flink 为每个键值维护一个状态实例,并将具有相同键的所有数据,都分区到同一个算子

2021-12-14 15:20:45 1471

原创 Flink ProcessFucntion

文章目录1.为什么要学习底层 ProcessFuntion API2.Flink提供了哪些 ProcessFuntion1.为什么要学习底层 ProcessFuntion API为了访问时间戳 watermark以及注册定时事件2.Flink提供了哪些 ProcessFuntionProcessFunctionKeyedProcessFunctionCoProcessFunctionProcessJoinFunctionBroadcastProcessFunctionKeyedB

2021-12-13 22:51:26 1203

原创 Git_05团队协作

1. 团队协作2. 跨团队协作3. 远程仓库操作命令命令一览表3.1 创建远程仓库别名# 查看当前仓库的远程仓库git remote -v# 本地仓库配远程仓库git remote add 别名 所提交到远程仓库的地址git remote add ori https://github.com/atguiguyueyue/git-shTest.git3.2 克隆远程仓库git clone 远程地址3.3 邀请别人参加到你的项目中方式一:将别人的git

2021-12-11 21:28:57 450

原创 Git_04后悔药

1.后悔药(撤销)1.1 撤回自己在工作目录中的修改 git checkout -- filename1.2 撤回自己在暂存区的内容git reset HEAD filename1.3 撤回版本库中的内容# 1.如果内容写错了 直接重新一个最新版本即可 #2.注释写错了,重新给用户一次机会改注释git commit --amend# 3. 撤销上一次提交对象# 实现原理:把Head指针和分支执行的对象一块移动# 3.1 通过此命令 撤销上一次提交对象 但是暂

2021-12-11 20:36:16 115

原创 Git_03分支

文章目录1.版本分支的好处2.Git与SVN分支比较3.Git中分支是什么4. Git分支的相关命令1.版本分支的好处保证主线代码的完整性例如需要向项目中添加一个新功能,一般的团队都不会直接在主分支上修改,都会新建一个分支,在上面更改代码。这样做的好处就是保证主线代码的完整性和可用性,也就是说,主线上都是稳定的代码,可以直接拿来发布的减少冲突的解决在自己的分支上开发进行合并与全部在一个主分支上开发进行对比,如果代码提交相对频繁,你将会发现你永远都在解决冲突,如果提交缓慢的话,你还是发

2021-12-09 21:46:32 300

原创 Git_02高级命令

1. Git操作最基本的流程1.1创建工作目录 git init1.2 加入暂存区 git add ./底层执行的操作:(1)将所修改的文件内容 包装为blob对象 加入objcet中# 修改了多少个工作中的文件 此命令就要被执行多少次 git hash-object -w 文件名(2)再将刚所假如object库中的blob对象 加入暂存区git update-index ....1.3 提交到版本库git commit -m “注释内容”底层执行的命

2021-12-09 14:10:06 365

原创 Git_01入门

Git_01入门1.Git的概述1.1什么是版本控制版本控制是记录文件内容变化1.2.为什么要做版本控制假如没有版本控制 那么谁改了什么内容一概不知假如没有版本控制 那么项目版本根本无法回退1.3.常用的SVN作为版本控制有什么问题SVN只存储在一台服务器上,存储单点故障SVN本地不存储历史记录4.Git是什么?分布式版本控制软件5.Git的优势?每个本地存储整个项目的快照,断网的情况下也可以进行开发使用 github 进行团队协作,哪怕 g

2021-12-08 23:33:17 565

原创 Kafka

文章目录1. 什么是kafka2.为什么要有kafka呢?3.kafka架构图3.1 组成1.生产者2.kafka集群3.消费者4.ZK4. 架构深入1. 什么是kafka消息中间件2.为什么要有kafka呢?缓冲有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息的处理速度不一致的情况削峰使用消息队列 能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃。3.kafka架构图3.1 组成1.生产者既然topic有多个分区 那么发送

2021-12-08 00:09:00 110

原创 Flink04 --时间语义和 watermark

文章目录1. window 概念1.1 为什么要有窗口1.2 什么叫窗口1.3 开窗的原理2. window 类型2.1 时间窗口2.2 计数窗口3. window API1. window 概念1.1 为什么要有窗口实时流是源源不断的进行处理,为了得到一段流的处理后结果,此时就要把无限流转为有界流,此时Flink引入了窗口的概念。1.2 什么叫窗口实时流上截取的一段流 就叫一个窗口1.3 开窗的原理将流数据发到有限大小的桶中进行分析.例如每小时的数据开窗,8~9的数据

2021-12-05 15:49:37 1194

原创 二分法的应用

文章目录1. 什么时候可以使用二分2. 二分法的练习1. 什么时候可以使用二分经常见到的类型是在一个有序数组上,开展二分搜索 但有序真的是所有问题求解时使用二分的必要条件吗? 只要能正确构建左右两侧的淘汰逻辑,你就可以二分。2. 二分法的练习题目: 局部最小public static int getLessIndex(int[] arr) { if (arr == null || arr.length == 0) { return -1; // no exist } if

2021-09-25 21:49:56 314

原创 数据结构_异或运算

文章目录1.什么是异或运算2.异或运算的规则3.异或练习1.什么是异或运算无进位相加2.异或运算的规则A ^ A=0A ^0 =A异或运算满足交换律 A ^ B ^ C = B ^ C ^ A3.异或练习题目1: 不使用额外的变量交换两个变量的值// 两值不能是同一位置上的 public static void main(String[] args) { int a=5; int b=5; a=a^b;

2021-09-25 21:43:36 215

原创 排序算法(更新中)

文章目录1. 在此先贡献一个网站 此网站可可视化各种排序算法的动画2. 冒泡排序3. 插入排序4.选择排序1. 在此先贡献一个网站 此网站可可视化各种排序算法的动画排序算法动画2. 冒泡排序对数器/** * 对数器 */public class CheckMachine { /** * 交换两个位置 * * @param arr * @param i * @param j */ public static vo

2021-09-25 21:35:30 280

原创 数据分析--01股票分析

文章目录需求:股票分析需求:股票分析使用tushare包获取某股票的历史行情数据。输出该股票所有收盘比开盘上涨3%以上的日期。输出该股票所有开盘比前日收盘跌幅超过2%的日期。假如我从2010年1月1日开始,每月第一个交易日买入1手股票,每年最后一个交易日卖出所有股票,到今天为止,我的收益如何?import tushare as tsimport pandas as pdfrom pandas import DataFrame,Seriesimport numpy as npdf=t

2021-09-21 20:21:03 105

原创 数据分析01

文章目录1.什么是数据分析2 数据分析实现流程3 开发环境介绍4 数据分析三剑客5. numpy模块       5.1 numpy创建数组       5.2 numpy的常用属性       5.2 numpy数组的取值操作       5.2 numpy数组常用方法

2021-09-21 18:26:17 186

原创 链表(LinkedList)---双链表

文章目录1.为什么要有双链表2.双向链表的设计1.为什么要有双链表单向链表查找元素 只能从头向尾依次开始遍历 而双向链表查找元素可以根据元素的位置选择从头或者从尾开始查找 可以提高元素查找的效率2.双向链表的设计...

2021-09-04 20:48:40 318

原创 设计模式概述

文章目录1.什么是设计模式2. 为什么要学习设计模式3. 23中设计模式背后的设计原则1.什么是设计模式前辈总结开发设计方法 不同的设计模式有不同使用场景2. 为什么要学习设计模式为了提高代码复用性 可维护性 稳健性 以及安全性3. 23中设计模式背后的设计原则...

2021-08-28 09:42:27 83

原创 shell数据回刷脚本

文章目录1.脚本需求2.脚本分析1.脚本需求参数1:SQL脚本 参数2:开始分区时间 参数3:结束分区时间 。然后会回刷每一天的数据到当天的分区中。例如: ./run.sh t1.sql 20210101 20210302 会回刷20210101 到20210302的数据。2.脚本分析循环遍历出起止时间之间的每一天 然后把每一次遍历的结果作为参数 传入sql脚本中的参数 执行完毕 day+1先实现 输入启止 时间 遍历输出每一天再将天作为sql参数 传入 执行 执行完毕 day

2021-08-26 21:54:30 484

转载 Hive窗口函数

文章目录1. 什么是窗口函数2. 窗口函数的语法3. 窗口函数常常搭配的分析函数都有什么?4. 窗口函数练习1. 什么是窗口函数over( ) 就是一个窗口函数 用来声明与分析函数函数的作用范围2. 窗口函数的语法分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)partition by可理解为group by 分组。分析函数按照每一组每一组的数据进行计算的。order by:窗口排序rows

2021-08-11 19:53:37 311

原创 hive表join注意事项

文章目录A left join B on a.id=b.idA left join B on a.id=b.id(select a.id,a.click,b.pv from a left join b on a.id=b.id)异常字段拼接字段是否有异常(null 空串 等) 根据业务判断异常字段需不需要过滤掉 提前过滤掉异常字段1.会减少拼接的数据量2.如果左表也有异常字段 可能会导致两个异常字段拼接上 导致最后结果异常(左右表null 字段拼接上了 可能不需要null字段的拼接,那

2021-08-09 15:19:48 242

转载 Java-Collection和Map

文章目录1. 什么是集合2. 集合的继承树3. 为什么要使用集合4.集合的分类5.Collection接口(单列集合)        5.1 Collection 都有哪些具体的实现类        5.2 Collection接口中的抽象方法:        5.3 List具体的实现类&nbs

2021-08-03 22:12:10 206

原创 hive 修改表信息 添加列遇到的问题

文章目录1.不带cascade 向hive分区表中添加新的一列 旧分区该字段只无法被inset 进去2.hive 导入数据2.hive删除列1.不带cascade 向hive分区表中添加新的一列 旧分区该字段只无法被inset 进去alter table student_partition add columns(sex string)1.向新分区中添加数据2.新分区新字段有值3.刷写旧分区中的数据4.新字段为空值向分区表添加字段时 , 不使用关键字cascade

2021-07-26 22:33:23 781 2

原创 使用hive报 return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决方法

1.情况两表join 向新表中插入数据时导入其他分区的的数据时正常 唯独0701这一天的数据异常insert overwrite table Apartition (log_date= '20210701')select * from employees e left join b where a.log_date= '20210701' and b.log_date= '20210701'2.分析3.解决...

2021-07-24 21:10:16 3004

原创 Hive高级用法01-hive调优

文章目录1. 查看执行计划    1.1 执行计划有什么用:    1.2 怎么查询执行计划    1.3 简单示例2.建表优化      2.1 建分区表         2.1.1 什么是分区表   &nbs

2021-07-24 16:18:47 1840 1

翻译 MySQL之left join深入理解

1.left join 底层执行原理SELECT * FROM LT LEFT JOIN RT ON P1(LT,RT)) WHERE P2(LT,RT)其中P1是on过滤条件,缺失则认为是TRUE,P2是where过滤条件,缺失也认为是TRUE,该语句的执行逻辑FOR each row lt in LT {// 遍历左表的每一行 BOOL b = FALSE; FOR each row rt in RT such that P1(lt, rt) {// 遍历右表每一行,找到满足join

2021-07-16 16:52:04 1268

原创 hive 常用函数总结

1.选择的函数case when :if… else if …else if…elsecase 列名when 列值1 then 返回值1when 列值2 then 返回值2when 列值2 then 返回值3[esle 其他情况 ]end-- 1select dept_id, sum(case sex when '男' then 1 else 0 end) male_count, sum(case sex when '女' then 1 else 0 end) f

2021-07-13 10:37:31 854

原创 Hive的严格模式

文章目录1. 什么是Hive的严格模式2. Hive的严格模式不允许哪些SQL执行2.1 禁止分区表全表扫描2.2 禁止排序不加limit2.3 禁止笛卡尔积3. Hive的严格模式怎样开启1. 什么是Hive的严格模式hive中的一种模式,在该模式下禁止一些不好SQL的执行。2. Hive的严格模式不允许哪些SQL执行2.1 禁止分区表全表扫描分区表往往数据量大,如果不加分区查询会带来巨大的资源消耗 。例如以下分区表SELECT DISTINCT(planner_id) FROM fr

2021-07-10 21:42:17 1594 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除